티스토리 뷰

728x90

Peptide = Protein이라고 생각하는 위험성
Peptide = Protein이라고 생각하는 위험성

— 우리가 보고 있는 것은 단백질이 아니라, 단백질의 ‘조각’이다

처음 proteomics 데이터를 접하면
자연스럽게 이렇게 생각하게 된다.

“이건 단백질 데이터다”

리스트에는 단백질 이름이 있고,
각각의 abundance 값이 있고,
그 변화가 정리되어 있다.

그래서 해석도 자연스럽게 이어진다.

  • 이 단백질이 증가했다
  • 이 단백질이 감소했다

이건 너무 당연한 흐름이라
대부분 의심하지 않는다.

하지만 proteomics를 조금 더 깊이 들여다보면
이 전제가 얼마나 위험한지 보이기 시작한다.

우리는 단백질을 직접 측정하지 않는다

LC-MS 기반 proteomics에서
실제로 측정하는 것은 단백질이 아니다.

우리는

  • trypsin으로 단백질을 잘라서
  • peptide를 만들고
  • 그 peptide의 signal을 측정한다

즉,

proteomics는 protein이 아니라 peptide 기반 분석이다

단백질은
이 peptide들을 기반으로
“추론”된 결과다.

하나의 단백질은 하나가 아니다

하나의 단백질은
여러 개의 peptide로 구성된다.

그리고 이 peptide들은
각각 독립적으로 행동한다.

실제 상황

단백질 X에서 나온 peptide들:

  • peptide A → 증가
  • peptide B → 변화 없음
  • peptide C → 감소

이 경우 질문이 생긴다.

“이 단백질은 증가한 걸까, 감소한 걸까?”

답은 간단하지 않다.

peptide는 단백질을 동일하게 대표하지 않는다

이건 가장 중요한 포인트다.

각 peptide는

  • 다른 위치에서 유래하고
  • 다른 물리적 특성을 가지며
  • 다른 방식으로 검출된다

그래서

👉 동일 단백질이라도
peptide별 signal은 완전히 다르게 움직인다

실제 사례 ①: digestion efficiency의 차이

trypsin digestion은
완벽하지 않다.

  • 어떤 부위 → 잘 절단
  • 어떤 부위 → 거의 안 됨

그래서 특정 peptide는

→ 항상 강하게 보이고
다른 peptide는
→ 거의 보이지 않는다

이걸 그대로 해석하면

→ 특정 단백질이 많은 것처럼 보일 수 있다

실제 사례 ②: post-translational modification (PTM)

단백질은 그대로 존재하지 않는다.

  • phosphorylation
  • glycosylation
  • oxidation

이런 modification이 발생한다.

이 경우

  • modified peptide만 변화
  • 전체 protein은 변화 없음

하지만 peptide 기반 분석에서는

→ 단백질 abundance 변화로 오해

peptide 하나로 protein을 대표하는 순간

실무에서 가장 흔하게 발생하는 문제다.

상황

  • 단백질 X
  • peptide 하나만 검출

이 peptide가 증가하면

→ 단백질 증가로 해석

하지만 실제로는

  • 해당 peptide만 안정적
  • 나머지 peptide는 검출 실패

실제 사례 ③: single peptide bias

한 연구에서

  • 특정 단백질이 유의하게 증가

하지만 확인 결과

→ 단 하나의 peptide에 의해 결정됨

다른 peptide는

→ 변화 없음 또는 반대 방향

즉,

단백질이 아니라 peptide 하나의 변화

protein inference의 근본적인 한계

proteomics에서 단백질은
직접 측정된 값이 아니다.

이건

👉 peptide 조합으로 추론된 결과다

문제 상황

하나의 peptide가

  • 여러 단백질에 공통으로 존재

이 경우

→ 어떤 단백질이 실제로 존재하는지
불확실해진다

실제 사례 ④: shared peptide 문제

  • peptide A → protein X, Y 모두에 존재

검출 결과:

→ peptide A 증가

해석:

→ X 증가? Y 증가? 둘 다?

이건 명확히 알 수 없다.

missing value가 peptide-level에서 더 심각하다

protein level에서는 보이지 않지만
peptide level에서는 더 큰 문제다.

상황

  • peptide A → 항상 검출
  • peptide B → 대부분 missing

이 경우 protein abundance는
A에 의해 결정된다.

즉,

👉 일부 peptide가 전체 protein을 대표

peptide selection이 결과를 바꾼다

software마다

  • peptide selection 기준이 다르다

결과적으로

  • 같은 raw data에서도
  • 다른 protein abundance 결과

실제 사례 ⑤: software 간 차이

같은 dataset에서

  • software A → protein 증가
  • software B → 변화 없음

원인:

→ peptide selection 알고리즘 차이

가장 위험한 해석

이 문장이 가장 위험하다.

“이 단백질이 증가했다”

이 말은

👉 peptide 수준의 불확실성을 모두 무시한 표현이다

우리는 왜 이 착각을 하게 되는가

이유는 간단하다.

결과는 항상
“protein 이름”으로 나오기 때문이다.

그래서 우리는 자연스럽게
이걸 단백질 데이터로 받아들인다.

하지만 실제로는

👉 peptide 데이터의 요약일 뿐이다

실무에서 반드시 해야 할 것

1) peptide-level 확인

모든 peptide가 동일 방향인지 확인

2) single peptide 의존 금지

최소 2~3 peptide 필요

3) PTM 여부 확인

특정 peptide만 변화하는지 체크

4) shared peptide 제거 고려

ambiguity 줄이기

5) orthogonal validation

  • Western blot
  • targeted MS

핵심 정리

Proteomics에서

  • peptide → 측정 대상
  • protein → 추론 결과

이 둘은 동일하지 않다.

결론

Proteomics는
단백질을 직접 보여주지 않는다.

대신

👉 단백질의 일부를 보여준다

그리고 우리는 그 일부를 보고
전체를 상상한다.

문제는

👉 그 상상이 언제든지 틀릴 수 있다는 점이다

마지막 질문

다음에 proteomics 결과를 볼 때
이 질문을 반드시 해야 한다.

“이건 단백질의 변화인가,
아니면 특정 peptide의 변화인가?”

이 질문 하나가
해석의 정확도를 완전히 바꾼다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/05   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함