티스토리 뷰

728x90

Protein abundance는 실제 농도를 반영할까
Protein abundance는 실제 농도를 반영할까

우리는 단백질의 양을 측정하고 있는가, 아니면 신호의 결과를 해석하고 있는가

proteomics 데이터를 처음 접했을 때,
대부분의 사람들은 같은 방식으로 이해한다.

“이 값은 단백질의 양이다.”

그래서 자연스럽게 이렇게 이어진다.

  • 값이 높다 → 단백질이 많다
  • 값이 낮다 → 단백질이 적다

이 논리는 직관적이고,
그래서 더 위험하다.

왜냐하면 이 전제는
절반만 맞고, 절반은 틀리기 때문이다.

그리고 이 차이를 이해하지 못하는 순간,
proteomics 해석은 완전히 다른 방향으로 흘러가기 시작한다.

1. 우리가 보고 있는 ‘abundance’의 정체

proteomics에서 말하는 abundance는
실제로 무엇일까?

많은 경우 이것은 다음에서 나온다.

  • peptide intensity
  • spectral count
  • reporter ion signal (TMT/iTRAQ)

즉,

직접적인 단백질 농도가 아니라
“검출된 신호의 크기”다

이 차이는 매우 중요하다.

왜냐하면 신호는
단순히 농도만 반영하지 않기 때문이다.

2. signal은 농도 이외의 것에 더 민감하다

LC-MS에서 signal intensity는
다음 요소의 영향을 동시에 받는다.

  • ionization efficiency
  • peptide sequence
  • charge state
  • co-elution
  • matrix effect
  • instrument condition

즉,

같은 농도의 단백질이라도
signal은 다르게 나타날 수 있다.

반대로

농도가 다르지 않아도
signal은 크게 달라질 수 있다

3. peptide-level variability: 같은 단백질, 다른 신호

하나의 단백질은
여러 peptide로 분해된다.

문제는 이 peptide들이
각각 다르게 행동한다는 점이다.

실제 상황

같은 단백질에서 나온 peptide A와 B

  • peptide A → signal 증가
  • peptide B → 변화 없음

이 경우
protein abundance는 증가한 것일까?

답은 간단하지 않다.

왜 이런 일이 발생하는가

  • digestion efficiency 차이
  • peptide stability 차이
  • ionization efficiency 차이
  • modification 여부

즉,

peptide는 단백질을 동일하게 대표하지 않는다

4. 실제 사례 ①: phosphoproteomics에서의 착각

한 연구에서
특정 단백질의 abundance 증가가 보고되었다.

하지만 후속 분석에서 밝혀진 것은

  • total protein 변화 없음
  • 특정 phospho-peptide만 증가

즉,

단백질이 증가한 것이 아니라
post-translational modification이 변한 것이었다.

하지만 initial 분석에서는
이 차이를 구분하지 못했다.

5. ion suppression: 존재하지만 보이지 않는 단백질

LC-MS에서는
ion suppression이 항상 존재한다.

이 현상은 이렇게 작동한다.

  • 강한 신호 → 약한 신호 억제
  • co-elution → 경쟁 발생

이로 인해

  • 실제로 존재하는 peptide가
  • 검출되지 않을 수 있다

즉,

단백질이 존재해도 abundance가 낮게 보일 수 있다

6. 실제 사례 ②: plasma proteomics에서의 왜곡

혈장 proteomics 연구에서
low abundance protein이 거의 검출되지 않는 문제가 있었다.

초기 해석:

→ 해당 단백질은 거의 존재하지 않는다

하지만 depletion 실험 후:

→ 실제로는 존재하지만
high abundance protein에 의해 억제됨

즉,

abundance가 낮은 것이 아니라
보이지 않았던 것

7. sample preparation이 abundance를 바꾼다

전처리는 단순한 준비 과정이 아니다.

이 단계에서 이미

  • protein loss
  • selective extraction
  • degradation

이 발생한다.

실제 사례 ③: membrane protein

일반적인 lysis buffer 사용 시

  • cytosolic protein → 잘 추출
  • membrane protein → 거의 검출 안 됨

결과:

→ membrane protein abundance 낮게 평가

하지만 실제로는
단순히 extraction 문제였다.

8. digestion efficiency: 보이지 않는 변수

trypsin digestion은
proteomics의 핵심 단계다.

하지만 이 과정은 완벽하지 않다.

  • incomplete digestion
  • missed cleavage
  • enzyme variability

이로 인해

  • peptide 생성량이 달라지고
  • abundance가 변한다

9. normalization의 함정

많은 분석에서
normalization을 통해 데이터를 보정한다.

하지만 이 과정은

데이터를 재구성하는 과정이다

실제 문제

  • 전체 protein 양이 실제로 증가했는데
  • normalization으로 제거됨

결과:

→ biological signal 소실

10. ratio compression (TMT/iTRAQ)

isobaric labeling에서는
ratio compression 문제가 발생한다.

  • co-isolation
  • interference

이로 인해

실제 변화보다 작게 측정된다

실제 사례 ④

실제 fold change: 4배
측정 결과: 1.5배

→ biological effect 과소평가

11. missing value의 의미

proteomics 데이터에서
missing value는 흔하다.

하지만 이건 단순한 결측이 아니다.

  • detection 실패
  • stochastic sampling
  • low abundance

즉,

missing = 0이 아니다

12. DDA vs DIA 차이

DDA에서는
stochastic sampling이 발생한다.

  • 일부 peptide만 선택

DIA에서는
전체를 분석하지만

  • noise 증가
  • 해석 복잡성 증가

결과적으로

같은 샘플에서도 abundance가 달라진다

13. protein inference 문제

하나의 peptide가
여러 단백질에 속할 수 있다.

이 경우

  • 잘못된 protein assignment
  • abundance 왜곡

이 발생한다.

14. 가장 위험한 순간

데이터가 너무 잘 맞을 때다.

  • fold change 명확
  • p-value 유의
  • pathway 연결

이때 사람은 확신한다.

“이건 진짜 abundance 변화다”

하지만 실제로는

signal artifact일 가능성도 존재한다

15. 우리는 무엇을 측정하고 있는가

이제 질문을 바꿔야 한다.

우리는 정말
단백질 농도를 측정하고 있는가?

아니면

복잡한 시스템을 통과한 신호를 해석하고 있는가?

16. 실무에서의 접근 전략

1) peptide-level 확인

모든 peptide가 일관되게 변화하는지 확인

2) orthogonal validation

  • Western blot
  • targeted MS

3) multiple method 비교

DDA vs DIA 비교

4) cautious interpretation

확신보다 가능성 중심

결론: abundance는 ‘측정값’이 아니라 ‘해석값’이다

proteomics에서 abundance는
절대적인 값이 아니다.

이건

여러 과정이 만들어낸 결과다

  • sample preparation
  • digestion
  • LC-MS
  • data processing

이 모든 단계가 결합되어
하나의 숫자가 만들어진다.

그래서 그 숫자는

  • 정확할 수도 있고
  • 왜곡되었을 수도 있다

결국 중요한 것은
숫자가 아니라 해석이다.

마지막 질문

이 질문은 모든 proteomics 분석에서 필요하다.

“이 abundance는 실제 농도를 반영하는가,
아니면 시스템이 만든 신호인가?”

이 질문을 하지 않는 순간
데이터는 언제든지
그럴듯하게 틀릴 수 있다.

728x90