티스토리 뷰

Proteomics에서 가장 중요한 단백질이 가장 먼저 보이지 않게 되는 구조
Proteomics 데이터를 보다 보면 이상한 역설을 자주 경험하게 된다. 세포 기능을 실제로 조절하는 핵심 signaling protein이나 transcription factor는 잘 보이지 않는데, 상대적으로 biological novelty가 낮은 housekeeping protein은 항상 안정적으로 검출된다. 어떤 실험에서는 mitochondrial structural protein이나 ribosomal protein은 수천 개 peptide로 풍부하게 보이는데, 정작 연구자가 관심을 가지는 kinase나 regulatory protein은 missing value로 남는다.
처음 proteomics를 시작한 사람들은 보통 이 문제를 instrument sensitivity 부족으로 이해한다. Orbitrap resolution이 더 높으면 해결될 것 같고, scan speed가 빨라지면 low abundance peptide도 잡힐 것처럼 느껴진다. 실제로 instrument 발전은 분명 중요한 역할을 했다. 하지만 데이터를 오래 보다 보면 또 다른 사실이 보이기 시작한다.
Low abundance protein은 단순히 “양이 적어서” 안 보이는 것이 아니다. 실제로는 proteomics workflow 전체에서 지속적으로 불리한 위치에 놓인다. 단백질 추출 단계에서부터 digestion, cleanup, LC separation, ionization, precursor selection, database searching에 이르기까지 모든 단계에서 조금씩 밀려난다. 결국 low abundance protein이 사라지는 것은 하나의 사건이 아니라, 수많은 작은 bias가 연쇄적으로 누적된 결과에 가깝다.
그리고 더 중요한 것은, 우리가 biologically 가장 궁금해하는 단백질들이 대개 바로 이런 low abundance 영역에 존재한다는 점이다.
1. 세포 안의 단백질 abundance는 극단적으로 불균형하다
Proteomics에서 가장 먼저 이해해야 하는 구조 중 하나는 cellular protein abundance distribution이다.
세포 안의 단백질은 균등하게 존재하지 않는다. 실제로는 극단적인 dynamic range를 가진다. 일부 housekeeping protein은 세포 안에 수백만 copy 수준으로 존재하지만, 일부 transcription factor나 signaling molecule은 수십~수백 copy 수준에 불과하다.
예를 들어 actin, tubulin, ribosomal protein 같은 구조적·기본 대사 관련 단백질은 엄청난 abundance를 가진다. 반면 kinase, cytokine receptor, DNA-binding regulatory protein은 매우 낮은 abundance에 위치하는 경우가 많다.
문제는 LC-MS가 이 enormous dynamic range를 완벽하게 처리하지 못한다는 점이다.
결국 high abundance protein-derived peptide가 signal space 대부분을 차지하게 되고, low abundance peptide는 시작부터 경쟁에서 밀린 상태로 들어간다.
즉 low abundance protein 문제는 단순 sensitivity 부족이 아니라, proteome 자체가 이미 불균형한 구조를 가지고 있다는 데서 출발한다.
2. Extraction 단계에서부터 low abundance protein은 불리하다
많은 사람들이 low abundance protein loss를 MS detection 문제로만 생각하지만, 실제로는 훨씬 앞 단계부터 시작된다.
단백질 추출 단계에서는 abundance가 높은 soluble protein이 훨씬 안정적으로 회수된다. 반면 low abundance signaling protein이나 membrane-associated regulatory protein은 extraction efficiency variability 영향을 더 크게 받는다.
특히 membrane protein이나 nuclear regulatory protein은 일반 lysis buffer에서 recovery efficiency가 낮은 경우가 많다. 문제는 이들이 원래 abundance도 낮다는 점이다.
즉 extraction efficiency가 약간만 흔들려도 detection threshold 아래로 쉽게 떨어질 수 있다.
실제 tissue proteomics에서는 cytosolic metabolic protein은 안정적으로 유지되지만, low abundance transcription regulator는 replicate 간 missing pattern이 훨씬 심하게 나타나는 경우가 많다.
결국 low abundance protein은 extraction 단계부터 이미 selective loss를 경험하기 시작한다.
3. Digestion efficiency variability는 low abundance protein에 더 치명적이다
Digestion 단계 역시 low abundance protein에 매우 불리하게 작동한다.
High abundance protein은 digestion efficiency가 조금 낮아져도 충분한 peptide를 생성할 가능성이 높다. 하지만 low abundance protein은 peptide generation efficiency가 약간만 떨어져도 measurable peptide 자체가 사라질 수 있다.
특히 structured protein이나 membrane-associated protein은 digestion accessibility가 낮은 경우가 많다. 이런 protein들은 원래 abundance도 낮기 때문에 missed cleavage와 incomplete digestion 영향을 훨씬 크게 받는다.
실제 raw data를 보면 low abundance protein-derived peptide는 partially cleaved form과 fully cleaved form 사이에서 intensity distribution이 불안정하게 흔들리는 경우가 많다.
결국 digestion variability는 단순 technical noise가 아니라 low abundance protein visibility 자체를 흔드는 요인이 된다.
4. Cleanup 과정은 약한 signal을 먼저 제거한다
Proteomics workflow에서 peptide cleanup은 거의 필수 단계다. 하지만 cleanup은 low abundance peptide에게 매우 가혹한 과정이다.
High abundance peptide는 일부 recovery loss가 발생해도 여전히 detection threshold 위에 남아 있을 가능성이 높다. 반면 low abundance peptide는 cleanup 과정에서 약간만 손실돼도 completely missing 상태가 될 수 있다.
특히 hydrophobic peptide, PTM peptide, membrane-derived peptide는 cleanup recovery variability 영향을 더 크게 받는다. 문제는 low abundance signaling protein들이 이런 peptide 특성을 동시에 갖는 경우가 많다는 점이다.
실제 phosphoproteomics에서는 enrichment 이후 cleanup 과정만으로 low abundance phosphopeptide 상당수가 사라지는 사례가 흔하다.
즉 cleanup은 단순 purification이 아니라 이미 약한 signal을 우선적으로 제거하는 selection 과정에 가깝다.
5. LC-MS에서는 high abundance peptide가 공간을 점유한다
Mass spectrometer는 무한한 정보를 동시에 처리할 수 없다. 특히 DDA(Data-Dependent Acquisition)에서는 특정 순간 intensity가 높은 precursor가 우선적으로 선택된다.
문제는 high abundance peptide가 이 selection space를 거의 독점한다는 점이다.
예를 들어 어떤 retention time window에서 abundant ribosomal peptide와 low abundance signaling peptide가 동시에 존재한다고 가정해보자. Instrument는 대부분 high intensity precursor를 먼저 선택한다. 결과적으로 low abundance peptide는 MS/MS sampling 기회를 얻지 못할 가능성이 높다.
실제 DDA raw file을 보면 동일 abundant precursor들이 반복적으로 fragmentation되는 동안 low abundance precursor는 끝까지 선택되지 않는 경우가 매우 흔하다.
Dynamic exclusion이나 TopN optimization으로 일부 완화할 수는 있지만, 근본적으로 acquisition structure 자체가 abundance-biased하다.
즉 low abundance protein은 instrument에 도달하더라도 sampling 경쟁에서 계속 밀려난다.
6. Ion suppression은 low abundance peptide를 먼저 지운다
ESI ionization 환경에서는 co-eluting compound 사이의 ion competition이 발생한다. 이를 ion suppression이라고 부른다.
문제는 suppression 영향이 abundance dependence를 강하게 가진다는 점이다.
High abundance peptide는 일부 suppression이 발생해도 여전히 measurable signal을 유지할 수 있다. 하지만 low abundance peptide는 동일한 suppression 상황에서 completely invisible 상태가 될 수 있다.
특히 plasma나 tissue lysate처럼 matrix complexity가 높은 환경에서는 low abundance peptide가 suppression에 의해 selective하게 사라지는 현상이 매우 흔하다.
실제 chromatogram을 보면 high abundance peptide cluster 주변 retention time 영역에서 low abundance precursor signal이 급격히 약해지는 경우가 자주 관찰된다.
즉 ion suppression은 단순 signal reduction이 아니라 low abundance biology 자체를 선택적으로 지워버리는 구조다.
7. Search engine도 low abundance peptide에 불리하다
많은 사람들이 identification 단계는 중립적이라고 생각하지만, 실제 database search 역시 abundance bias 영향을 받는다.
Low abundance peptide는 MS/MS spectrum quality 자체가 낮은 경우가 많다. Fragment ion intensity가 약하고 ion coverage가 sparse하기 때문이다.
결과적으로 search engine score가 낮아지고 FDR threshold를 넘지 못하는 경우가 증가한다.
실제 raw spectrum을 비교해보면 high abundance peptide는 풍부한 b/y ion series를 제공하지만, low abundance peptide는 몇 개 fragment ion만 희미하게 남아 있는 경우가 많다.
즉 peptide가 실제로 존재하더라도 confident identification 단계에서 탈락할 가능성이 높다.
결국 low abundance protein은 acquisition 단계뿐 아니라 computational filtering 단계에서도 다시 제거된다.
8. Missing value는 random하지 않다
Proteomics 데이터를 다루다 보면 low abundance protein은 missing value를 자주 만든다. 많은 사람들이 이를 stochastic sampling artifact 정도로 생각한다.
하지만 실제 missing pattern은 상당히 구조적이다.
Low abundance peptide는 extraction variability, digestion inefficiency, cleanup loss, ion suppression, precursor competition, low-quality fragmentation 같은 문제를 동시에 겪는다. 결국 missing은 random event가 아니라 multiple bias의 최종 결과에 가깝다.
특히 low abundance signaling protein은 condition-specific missing pattern을 보이는 경우가 많다. 이 경우 연구자는 biological regulation처럼 해석할 수 있다.
하지만 실제로는 peptide detectability threshold 근처에서 발생하는 technical fluctuation일 가능성도 크다.
즉 missing value는 단순 빈칸이 아니라 proteomics 구조 자체가 low abundance biology를 어떻게 밀어내고 있는지를 보여주는 흔적이다.
9. 왜 biologically 중요한 단백질이 가장 안 보이는가
흥미로운 것은 세포 조절의 핵심 역할을 하는 단백질들이 대개 low abundance 영역에 존재한다는 점이다.
Transcription factor, kinase, phosphatase, receptor signaling protein 같은 regulatory molecule은 구조적으로도 복잡하고 abundance도 낮다. 반면 housekeeping protein은 abundance가 매우 높고 detection이 쉽다.
결국 proteomics는 가장 쉽게 보이는 biology와 가장 중요한 biology가 서로 다를 수 있는 구조를 가진다.
실제 pathway enrichment 결과를 보면 metabolic pathway와 structural protein signature는 매우 안정적으로 반복되는데, signaling pathway는 훨씬 불안정하게 나타나는 경우가 많다.
이 차이는 단순 biological variability만이 아니라 proteomics detectability 구조 자체에서 비롯된다.
10. 왜 우리는 이 문제를 자주 과소평가하는가
가장 큰 이유는 proteomics 결과가 abundance table 형태로 정리되기 때문이다.
연구자는 fold change와 p-value를 보게 되지만, 그 값 뒤에 숨어 있는 detectability bias는 쉽게 보이지 않는다.
또한 modern software pipeline은 missing value를 자동 처리하거나 normalization을 수행한다. 결과적으로 low abundance protein disappearance가 technical issue인지 biological regulation인지 점점 더 구분하기 어려워진다.
특히 reproducibility가 높은 경우 이 문제는 더 위험하다. Consistent bias는 매우 convincing한 biology처럼 보이기 때문이다.
결국 우리는 실제 proteome 전체를 보는 것이 아니라, proteomics workflow 안에서 살아남을 수 있었던 protein subset을 보고 있는 셈이다.
결론
Low abundance protein이 사라지는 이유는 단순히 양이 적기 때문이 아니다. 실제로는 proteomics workflow 전체가 abundance-biased structure로 작동하기 때문이다.
Extraction, digestion, cleanup, ionization, precursor selection, fragmentation, database searching까지 모든 단계에서 low abundance protein은 계속 불리한 위치에 놓인다. 결국 가장 biologically 중요한 signaling layer가 가장 먼저 데이터에서 사라질 수 있다.
이 사실을 이해하기 시작하면 이전에는 단순 missing value처럼 보였던 현상들이 다르게 보이기 시작한다. 왜 transcription factor는 잘 안 보이는지, 왜 signaling pathway reproducibility가 낮은지, 왜 replicate마다 low abundance protein이 흔들리는지에 대한 답이 proteomics workflow 전체 안에 숨어 있는 경우가 생각보다 많기 때문이다.
'제약산업' 카테고리의 다른 글
| Sample cleanup이 bias를 만드는 이유 (0) | 2026.05.18 |
|---|---|
| Trypsin digestion이 완벽하지 않은 이유 (0) | 2026.05.17 |
| Digestion 효율이 quantification에 미치는 영향 (0) | 2026.05.16 |
| Lysis buffer 조성이 proteome을 왜곡하는 방식 (0) | 2026.05.15 |
| 단백질 추출 방법이 proteomics 결과를 바꾸는 이유 (0) | 2026.05.14 |
| LC column 선택이 proteomics 결과를 바꾸는 구조 (0) | 2026.05.13 |
| 같은 peptide인데 왜 어떤 날은 사라질까 (0) | 2026.05.12 |
| Fragmentation 조건이 identification에 미치는 영향 (0) | 2026.05.11 |
- Total
- Today
- Yesterday
- 시스템
- 치료제
- Biomarker
- 대사체 분석
- 신약개발
- 분석팀
- 정량분석
- 제약산업
- 임상시험
- Targeted Metabolomics
- Proteomics
- 정밀의료
- 약물분석
- AI
- 제약
- Multi-omics
- matrix effect
- Missing Value
- bioanalysis
- metabolomics
- 데이터
- 바이오마커
- LC-MS
- 해석
- lc-ms/ms
- audit
- 미래산업
- Spatial metabolomics
- 분석
- biological signal
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
