티스토리 뷰

Proteomics에서 “숫자”는 정말 단백질 양을 의미할까
Proteomics를 처음 배우는 사람들은 보통 abundance table을 보는 순간 강한 확신을 갖게 된다. Sample A에서 어떤 protein intensity가 높게 나왔고, Sample B에서는 낮게 나왔으니 해당 단백질의 실제 양이 변했다고 생각한다. 특히 modern software가 자동으로 normalization, alignment, quantification을 수행하고 fold change와 p-value까지 계산해주기 시작하면 결과는 더욱 신뢰감 있게 보인다.
그리고 이 흐름의 중심에는 label-free quantification(LFQ)이 있다.
최근 proteomics에서는 LFQ가 거의 표준처럼 사용된다. Stable isotope labeling 없이도 대규모 샘플을 비교할 수 있고, workflow가 단순하며 clinical cohort처럼 sample 수가 많은 연구에도 적용하기 쉽기 때문이다. 실제로 수많은 biomarker discovery 논문과 disease proteomics 연구가 LFQ 기반으로 수행된다.
하지만 raw data를 오래 보다 보면 어느 순간 이상한 감각이 생긴다. 동일 biological sample인데 run마다 abundance가 미묘하게 흔들리고, 특정 protein은 replicate마다 fold change 방향이 바뀌며, 어떤 pathway는 preparation batch만 달라져도 regulation처럼 보이기 시작한다.
처음에는 instrument variability처럼 느껴질 수 있다. Ion suppression이나 DDA stochastic sampling 때문처럼 보일 수도 있다. 하지만 데이터를 끝까지 따라가다 보면 더 근본적인 질문에 도달하게 된다.
우리가 LFQ에서 보고 있는 숫자는 정말 “단백질 양”일까.
그리고 이 질문을 진지하게 보기 시작하면 proteomics 데이터가 이전과 전혀 다르게 보이기 시작한다.
1. LFQ는 단백질을 직접 측정하지 않는다
많은 사람들이 LFQ를 “protein quantification”이라고 부른다. 하지만 실제로 LFQ는 protein 자체를 직접 측정하지 않는다.
Mass spectrometer가 측정하는 것은 peptide ion signal이다. 즉 digestion 이후 생성된 peptide가 LC-MS 안에서 ionization되고 detection된 intensity를 기반으로 abundance를 추정한다.
결국 protein abundance는 여러 peptide signal을 간접적으로 조합해 계산한 estimate에 가깝다.
문제는 peptide intensity가 단순히 “protein amount”만 반영하지 않는다는 점이다.
Digestion efficiency, ionization efficiency, chromatographic behavior, precursor competition, ion suppression, fragmentation quality, search engine scoring 같은 요소들이 모두 peptide signal에 영향을 준다.
즉 LFQ abundance 값은 biology와 analytical bias가 섞여 만들어진 결과물이다.
2. Peptide는 모두 동일하게 보이지 않는다
LFQ의 가장 큰 착각 중 하나는 “같은 양의 peptide는 같은 intensity를 낼 것”이라는 무의식적인 가정이다.
하지만 실제 LC-MS 환경에서는 peptide마다 detectability가 극단적으로 다르다.
어떤 peptide는 ionization efficiency가 매우 높아서 작은 양으로도 강한 signal을 만든다. 반면 어떤 peptide는 abundance가 충분해도 weak signal만 남긴다.
Hydrophobicity, charge state, amino acid composition, peptide length, PTM 여부 같은 요소들이 모두 signal intensity에 영향을 준다.
예를 들어 동일 protein에서 유래한 peptide라도 어떤 peptide는 consistently strong signal을 보이지만, 다른 peptide는 replicate마다 disappearance를 반복할 수 있다.
즉 peptide intensity는 “얼마나 존재하는가”뿐 아니라 “얼마나 잘 보이는가”를 동시에 반영한다.
3. Digestion variability는 LFQ를 조용히 흔든다
LFQ는 digestion efficiency가 stable하다는 가정을 암묵적으로 포함한다.
하지만 실제 proteomics에서 trypsin digestion은 생각보다 훨씬 불완전하다.
Protein structure accessibility, missed cleavage, enzyme activity variation, incubation condition 같은 요소들이 peptide generation efficiency를 계속 흔든다.
특히 membrane protein이나 structured protein은 digestion variability 영향을 크게 받는다.
문제는 LFQ가 peptide intensity 기반으로 abundance를 계산한다는 점이다. 즉 digestion efficiency 변화는 곧 protein abundance 변화처럼 보일 수 있다.
실제 raw data를 보면 동일 protein에서도 일부 peptide는 증가하고 일부는 감소하는 경우가 흔하다. 이는 biology보다는 digestion pattern 변화 때문인 경우도 많다.
결국 LFQ는 protein amount뿐 아니라 peptide production efficiency까지 함께 측정하고 있다.
4. Ion suppression은 abundance를 재구성한다
ESI 기반 LC-MS에서는 co-eluting molecule 사이의 ion competition이 발생한다. 이를 ion suppression이라고 부른다.
문제는 suppression 영향이 peptide마다 다르다는 점이다.
High abundance peptide cluster 근처에 위치한 low abundance peptide는 signal loss를 크게 겪을 수 있다. 특히 complex biological sample에서는 이 현상이 매우 흔하다.
실제 chromatogram을 보면 특정 retention time window에서 low abundance precursor signal이 거의 사라지는 경우가 있다.
하지만 LFQ software는 이런 suppression history를 알지 못한다. 단순히 “측정된 intensity”만 사용한다.
결국 abundance table 안에는 biology뿐 아니라 chromatographic competition 구조까지 함께 반영된다.
즉 LFQ는 실제 abundance가 아니라 “survived signal”을 정량하고 있을 가능성이 있다.
5. Missing value는 random noise가 아니다
LFQ dataset에서 가장 흔한 문제 중 하나는 missing value다.
많은 사람들은 이를 DDA stochastic sampling artifact 정도로 이해한다. 물론 일부는 맞다. 하지만 실제 missing pattern은 상당히 구조적이다.
Low abundance peptide는 extraction variability, cleanup loss, ion suppression, precursor competition 영향을 동시에 받는다. 결과적으로 특정 peptide는 condition-specific missing pattern을 보인다.
문제는 software가 이 missing value를 처리하는 과정이다.
Imputation은 종종 low abundance assumption 기반으로 수행된다. 즉 missing peptide를 “낮은 abundance”로 간주한다.
하지만 실제로는 peptide가 존재했음에도 detectability problem 때문에 사라졌을 가능성이 있다.
즉 LFQ missing value는 단순 blank가 아니라 detectability bias의 흔적일 수 있다.
6. Protein inference 자체가 불완전하다
LFQ는 peptide를 protein level로 통합한다. 그런데 이 과정 자체가 생각보다 불안정하다.
어떤 protein은 dozens of peptide로 quantification되지만, 어떤 low abundance protein은 사실상 1~2개 peptide에 의존한다.
문제는 특정 peptide 하나만 흔들려도 protein abundance estimate 전체가 크게 바뀔 수 있다는 점이다.
특히 shared peptide 문제는 더욱 복잡하다. 여러 protein isoform 사이에서 peptide가 overlap되면 abundance assignment ambiguity가 발생한다.
실제 dataset에서는 peptide-level behavior와 protein-level summary가 서로 충돌하는 경우가 자주 나타난다.
즉 LFQ protein abundance는 실제 biological entity라기보다 statistical reconstruction에 가까운 경우도 많다.
7. Normalization은 bias를 숨기기도 한다
LFQ에서는 normalization이 거의 필수처럼 사용된다.
Total ion current normalization, median normalization, variance stabilization 같은 방법이 대표적이다.
문제는 normalization이 항상 biology를 보존하지 않는다는 점이다.
예를 들어 특정 sample group에서 실제 global proteome shift가 발생했더라도 normalization은 이를 technical bias로 간주하고 flattening할 수 있다.
반대로 preparation batch effect가 global shift 형태로 나타나면 normalization 이후에도 artifact가 biology처럼 남을 수 있다.
즉 normalization은 데이터를 “정상화”하는 동시에 biological truth 일부를 재구성한다.
그리고 많은 연구자는 normalization 이후 abundance table만 보게 된다.
8. LFQ reproducibility는 생각보다 fragile하다
Proteomics 논문에서는 reproducibility가 자주 강조된다. Pearson correlation이나 CV distribution이 안정적으로 보이면 데이터가 reliable하다고 판단한다.
하지만 LFQ reproducibility는 abundance-dependent structure를 가진다.
High abundance housekeeping protein은 매우 안정적으로 유지된다. 반면 low abundance signaling protein은 replicate variability가 훨씬 크다.
문제는 biologically 중요한 pathway가 주로 후자에 속한다는 점이다.
즉 LFQ는 가장 쉽게 보이는 biology는 안정적으로 재현하지만, 가장 중요한 signaling layer는 계속 흔들릴 수 있다.
결국 “good reproducibility”라는 말 자체가 무엇을 기준으로 보는가에 따라 달라진다.
9. Differential expression은 쉽게 biological story가 된다
LFQ의 가장 위험한 순간은 differential expression 결과가 narrative로 연결될 때다.
예를 들어 특정 pathway protein들이 collectively 증가했다고 가정해보자. 연구자는 disease-associated activation이라고 해석할 수 있다.
하지만 실제로는 preparation batch, digestion efficiency, cleanup recovery, ion suppression structure가 함께 움직인 결과일 수도 있다.
특히 low abundance protein은 detectability threshold 근처에서 흔들리기 때문에 작은 technical fluctuation도 fold change처럼 보이기 쉽다.
문제는 이런 패턴이 통계적으로도 convincing하게 나타날 수 있다는 점이다.
즉 LFQ는 biology를 보여주는 동시에 analytical workflow history까지 함께 보여준다.
10. 왜 우리는 LFQ 숫자를 쉽게 믿게 되는가
가장 큰 이유는 abundance table이 너무 “정량적”으로 보이기 때문이다.
Fold change와 p-value는 강한 객관성을 준다. Software는 수천 개 protein을 자동으로 정리해주고 volcano plot과 heatmap까지 생성한다.
하지만 그 숫자 뒤에는 extraction efficiency, peptide detectability, LC competition, missing structure, normalization assumption 같은 복잡한 과정이 숨어 있다.
그리고 중요한 것은 대부분의 bias가 invisible하다는 점이다.
연구자는 최종 protein table만 본다. 사라진 peptide, 선택되지 않은 precursor, suppression된 signal은 데이터 밖으로 밀려난다.
결국 우리는 실제 proteome을 보는 것이 아니라, proteomics workflow 안에서 살아남은 signal을 해석하고 있는 경우가 많다.
결론
Label-free quantification은 강력한 기술이다. 대규모 proteomics 연구를 가능하게 만들었고 biomarker discovery와 systems biology 발전에 큰 기여를 했다.
하지만 LFQ abundance는 단순한 “단백질 양”이 아니다. 실제로는 digestion efficiency, peptide detectability, ion suppression, missing value structure, normalization assumption 같은 요소들이 함께 반영된 composite signal에 가깝다.
즉 LFQ는 biology를 측정하는 동시에 analytical system의 선택 구조까지 함께 측정한다.
이 사실을 이해하기 시작하면 이전에는 당연하게 보였던 abundance table이 다르게 보이기 시작한다. 왜 low abundance protein이 반복적으로 흔들리는지, 왜 replicate마다 특정 pathway가 달라지는지, 왜 statistically significant한 결과가 항상 biologically meaningful하지 않은지에 대한 답이 LFQ 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.
'제약산업' 카테고리의 다른 글
| Freeze-thaw가 proteome에 미치는 영향 (0) | 2026.05.22 |
|---|---|
| Batch 간 sample prep 차이가 만드는 오류 (0) | 2026.05.21 |
| Protein precipitation이 특정 단백질을 잃게 만드는 이유 (0) | 2026.05.20 |
| Low abundance protein이 사라지는 이유 (0) | 2026.05.19 |
| Sample cleanup이 bias를 만드는 이유 (0) | 2026.05.18 |
| Trypsin digestion이 완벽하지 않은 이유 (0) | 2026.05.17 |
| Digestion 효율이 quantification에 미치는 영향 (0) | 2026.05.16 |
| Lysis buffer 조성이 proteome을 왜곡하는 방식 (0) | 2026.05.15 |
- Total
- Today
- Yesterday
- 분석
- 분석팀
- 정밀의료
- AI
- 신약개발
- 임상시험
- 바이오마커
- 데이터
- 시스템
- lc-ms/ms
- metabolomics
- Biomarker
- 치료제
- audit
- 해석
- biological signal
- Targeted Metabolomics
- Proteomics
- 미래산업
- matrix effect
- 약물분석
- 제약산업
- 대사체 분석
- Missing Value
- 정량분석
- Spatial metabolomics
- 제약
- bioanalysis
- LC-MS
- Multi-omics
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
