티스토리 뷰

Total ion vs Median vs Quantile vs VSN… Proteomics에서 무엇을 “같게 만든다”는 의미일까
Proteomics 데이터를 처음 분석할 때 많은 사람들이 normalization을 거의 자동 단계처럼 생각한다. Raw intensity를 software에 넣으면 normalization이 수행되고, 이후 abundance table과 volcano plot이 생성된다. 데이터가 훨씬 깔끔해지고 replicate 간 variation도 줄어든다. 그래서 자연스럽게 이런 생각을 하게 된다.
“Normalization을 하면 technical noise가 제거되고 biology만 남는 것 아닐까?”
실제로 normalization은 proteomics에서 거의 필수 과정이다. LC injection amount가 조금씩 다를 수도 있고, spray stability나 ionization efficiency가 run마다 흔들릴 수도 있으며, sample preparation recovery 역시 완전히 동일할 수 없기 때문이다.
문제는 normalization이 단순한 “noise correction”이 아니라는 점이다.
Normalization은 데이터를 정리하는 동시에, 무엇을 biology로 보고 무엇을 technical variation으로 간주할지를 결정한다. 즉 normalization은 단순 계산 과정이 아니라 proteome 전체를 다시 재구성하는 해석 단계에 가깝다.
그리고 이 사실을 이해하기 시작하면 이전에는 너무 당연하게 보였던 abundance table이 전혀 다르게 보이기 시작한다.
1. Proteomics raw intensity는 원래 비교 불가능하다
Normalization이 필요한 가장 근본적인 이유는 LC-MS intensity가 absolute quantity가 아니기 때문이다.
Mass spectrometer는 peptide ion signal을 측정하지만, 이 signal은 단순히 peptide 양만 반영하지 않는다.
Injection amount, ionization efficiency, spray stability, detector sensitivity, chromatographic condition, ion suppression 같은 요소들이 모두 intensity에 영향을 준다.
즉 동일 biological sample이라도 run마다 total signal distribution이 달라질 수 있다.
예를 들어 어떤 sample은 total ion intensity가 높고, 다른 sample은 전체적으로 낮게 측정될 수 있다. 이 상태 그대로 fold change를 계산하면 biological difference와 instrument variability를 구분할 수 없게 된다.
그래서 normalization은 sample 간 signal scale을 맞추기 위해 등장했다.
문제는 “무엇을 기준으로 맞출 것인가”다.
2. Total ion normalization
“전체 signal은 비슷해야 한다”는 가정
가장 직관적인 normalization 전략 중 하나가 Total Ion Current(TIC) normalization이다.
개념은 단순하다.
각 sample의 total peptide intensity 합을 계산한 뒤, 전체 signal이 동일해지도록 scaling한다.
예를 들어 Sample A total intensity가 1억이고 Sample B가 8천만이면, Sample B intensity를 일정 비율로 올려 두 sample total signal을 맞춘다.
겉보기에는 매우 합리적이다. Injection amount 차이나 spray efficiency fluctuation을 correction하는 데 효과적일 수 있다.
하지만 여기에는 매우 강한 가정이 숨어 있다.
“전체 proteome abundance는 sample 간 크게 변하지 않는다.”
문제는 실제 biology에서는 이 가정이 깨지는 경우가 많다는 점이다.
예를 들어 세포 전체 protein synthesis가 크게 증가하거나, apoptosis처럼 global protein degradation이 일어나는 상황에서는 total proteome 자체가 달라질 수 있다.
그런데 TIC normalization은 이런 실제 biological shift를 technical variation으로 간주하고 flattening할 수 있다.
즉 biology를 correction해버릴 가능성이 있다.
3. Median normalization
“대부분 protein은 변하지 않는다”는 가정
Median normalization은 proteomics에서 가장 흔히 사용되는 전략 중 하나다.
각 sample intensity distribution의 median을 기준으로 scaling을 수행한다.
즉 전체 protein 중 절반은 증가하고 절반은 감소한다고 가정하면서 중앙값을 맞춘다.
TIC보다 outlier 영향이 적고, 일부 highly abundant protein change에 덜 민감하다는 장점이 있다.
하지만 여기에도 중요한 전제가 있다.
“대부분 protein abundance는 stable하다.”
즉 differential protein은 일부에 불과하고, proteome majority는 unchanged state라는 가정이다.
실제 많은 biological experiment에서는 꽤 잘 작동한다.
하지만 만약 특정 condition에서 broad proteome remodeling이 일어나고 있다면 어떨까.
예를 들어 immune activation, differentiation, stress response, senescence 같은 상황에서는 large-scale abundance shift가 발생할 수 있다.
이 경우 median normalization은 실제 biological trend를 중앙값 방향으로 다시 끌어당긴다.
즉 biology 일부를 지워버릴 수 있다.
4. Quantile normalization
“모든 분포는 같아야 한다”는 가장 강한 가정
Quantile normalization은 microarray 시대부터 널리 사용되던 방법이다.
각 sample intensity distribution 자체를 동일하게 만든다.
예를 들어 intensity rank별 값을 서로 평균화해 모든 sample이 완전히 같은 distribution을 갖도록 만든다.
기술적으로는 매우 강력하다. Batch effect와 systematic variability를 크게 줄일 수 있다.
하지만 biological interpretation 측면에서는 가장 공격적인 normalization 중 하나다.
왜냐하면 이 방법은 essentially 다음을 가정하기 때문이다.
“Sample 간 전체 intensity distribution 차이는 대부분 technical artifact다.”
즉 biological global shift 가능성을 거의 인정하지 않는다.
실제 proteomics에서는 quantile normalization 이후 dramatic proteome difference가 surprisingly subtle하게 flattening되는 경우가 있다.
특히 disease vs control처럼 global biology 자체가 달라질 수 있는 상황에서는 매우 cautious하게 사용해야 한다.
5. VSN (Variance Stabilization Normalization)
Intensity-dependent variability를 줄이려는 접근
Proteomics raw data를 보면 low intensity peptide가 훨씬 noisy하다.
High abundance protein은 reproducibility가 좋은 반면, low abundance peptide는 variance가 급격히 증가한다.
VSN은 이런 intensity-dependent variance structure를 안정화하려는 전략이다.
log-like transformation과 variance modeling을 이용해 abundance range 전반에서 variance를 균등하게 만들려고 한다.
특히 low abundance peptide variability를 줄이는 데 효과적일 수 있다.
하지만 문제는 low abundance biology 자체가 flattening될 위험도 있다는 점이다.
Low intensity signal에는 실제 biological heterogeneity와 technical noise가 동시에 섞여 있다. VSN은 이 둘을 완벽하게 구분할 수 없다.
결국 일부 subtle biology까지 variance reduction 과정에서 약화될 수 있다.
6. Reference-based normalization
“기준 샘플”을 중심으로 맞추기
TMT/iTRAQ에서는 pooled reference sample을 사용하는 경우가 많다.
각 batch에 공통 reference channel을 넣고, 이를 기준으로 batch 간 scaling을 수행한다.
Large cohort study에서 batch alignment에 상당히 유용하다.
하지만 reference 자체가 perfectly stable하다는 보장은 없다.
Reference preparation variability, degradation, mixing error가 발생하면 normalization 전체가 흔들릴 수 있다.
또 reference composition이 특정 biological subgroup bias를 포함하면 downstream interpretation까지 왜곡될 수 있다.
즉 reference normalization도 결국 “무엇을 기준 biological state로 볼 것인가”라는 선택 문제를 포함한다.
7. Housekeeping protein normalization
가장 위험하게 익숙한 방법
일부 연구에서는 housekeeping protein을 normalization anchor로 사용한다.
예를 들어 actin, GAPDH, tubulin 같은 protein abundance가 stable하다고 가정하는 방식이다.
문제는 실제 biology에서 housekeeping protein도 생각보다 자주 변한다는 점이다.
Cell cycle, differentiation, stress response, metabolic reprogramming 상황에서는 housekeeping protein abundance 자체가 달라질 수 있다.
그런데 normalization은 이 변화를 technical variability로 간주하고 correction한다.
즉 normalization anchor가 biological regulation을 포함하고 있으면 entire dataset interpretation이 흔들릴 수 있다.
8. 왜 normalization은 항상 biology를 재구성하는가
Normalization은 흔히 “technical correction”이라고 불린다.
하지만 실제로는 biology와 technical variation을 분리하는 과정이다.
문제는 LC-MS 데이터 안에서 이 둘이 완벽하게 구분되지 않는다는 점이다.
예를 들어 global proteome shift가 발생했을 때:
- 어떤 normalization은 이를 biology로 유지한다
- 어떤 normalization은 artifact로 간주하고 제거한다
즉 normalization은 중립적 계산이 아니다.
무엇을 “변하지 않는 기준”으로 볼 것인지 선택하는 과정이다.
그리고 그 선택에 따라 최종 biological conclusion 자체가 달라질 수 있다.
9. 실제 데이터에서는 normalization 결과가 완전히 달라질 수 있다
실제 proteomics dataset에서 normalization 방법을 바꾸면 differential expression 결과가 상당히 달라지는 경우가 많다.
어떤 protein은 TIC normalization에서는 significant하지만 median normalization에서는 사라진다.
특정 pathway enrichment가 quantile normalization 이후 거의 없어지는 경우도 있다.
특히 low abundance signaling protein은 normalization strategy 영향을 크게 받는다.
왜냐하면 이 영역은 원래 variance와 detectability fluctuation이 크기 때문이다.
즉 normalization choice 자체가 “무슨 biology를 보게 될 것인가”를 결정한다.
10. 그래서 어떤 normalization이 가장 좋은가
이 질문에 대한 절대적 답은 없다.
중요한 것은 dataset biology와 normalization assumption이 서로 맞는가다.
TIC normalization이 적합한 경우
- Total protein amount 차이가 mainly technical origin일 때
- Sample loading variability correction이 목적일 때
Median normalization이 적합한 경우
- 대부분 protein이 stable하다고 예상되는 비교
- Moderate proteome change 중심 연구
Quantile normalization이 적합한 경우
- Strong batch effect correction이 필요한 경우
- Distribution comparability가 중요한 경우
VSN이 적합한 경우
- Low abundance variance stabilization이 중요한 경우
- Broad dynamic range dataset
중요한 것은 normalization 결과를 “정답”으로 받아들이지 않는 것이다.
Normalization 이후 PCA, intensity distribution, housekeeping behavior, global fold change pattern을 반드시 다시 확인해야 한다.
결론
Proteomics에서 normalization은 단순한 preprocessing step이 아니다. 실제로는 무엇을 biology로 보고 무엇을 technical artifact로 볼 것인지 결정하는 해석 과정에 가깝다.
Total ion normalization은 전체 proteome stability를 가정하고, median normalization은 majority protein stability를 전제로 하며, quantile normalization은 distribution equality를 강하게 요구한다. 각각의 방법은 서로 다른 biological reality를 만들어낸다.
즉 normalization은 데이터를 “정리”하는 동시에 proteome structure 자체를 다시 재구성한다.
이 사실을 이해하기 시작하면 이전에는 너무 당연하게 보였던 abundance table이 다르게 보이기 시작한다. 왜 normalization 방법에 따라 pathway 결과가 달라지는지, 왜 low abundance signaling biology가 흔들리는지, 왜 일부 differential protein이 normalization 이후 사라지는지에 대한 답이 normalization assumption 안에 숨어 있는 경우가 생각보다 많기 때문이다.
'제약산업' 카테고리의 다른 글
| Ratio compression이 발생하는 구조 (0) | 2026.05.25 |
|---|---|
| iTRAQ/TMT 정량이 왜곡될 수 있는 이유 (0) | 2026.05.24 |
| Label-free quantification의 한계와 착각 (0) | 2026.05.23 |
| Freeze-thaw가 proteome에 미치는 영향 (0) | 2026.05.22 |
| Batch 간 sample prep 차이가 만드는 오류 (0) | 2026.05.21 |
| Protein precipitation이 특정 단백질을 잃게 만드는 이유 (0) | 2026.05.20 |
| Low abundance protein이 사라지는 이유 (0) | 2026.05.19 |
| Sample cleanup이 bias를 만드는 이유 (0) | 2026.05.18 |
- Total
- Today
- Yesterday
- Biomarker
- Missing Value
- AI
- LC-MS
- biological signal
- Multi-omics
- 대사체 분석
- 제약
- Targeted Metabolomics
- 임상시험
- 분석
- 해석
- matrix effect
- 신약개발
- 제약산업
- lc-ms/ms
- 치료제
- Proteomics
- bioanalysis
- 정밀의료
- 분석팀
- audit
- 약물분석
- 데이터
- 정량분석
- metabolomics
- 미래산업
- Spatial metabolomics
- 시스템
- 바이오마커
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
