티스토리 뷰

같은 샘플인데 왜 연구자마다 전혀 다른 생물학을 발견할까
Proteomics, Metabolomics, Lipidomics 연구를 처음 시작하는 사람들은 흔히 이렇게 생각한다.
분석 결과는 샘플 안에 이미 존재하는 생물학적 정보를 보여주는 것이라고.
즉 질병군과 대조군의 차이는 원래 존재하고 있었고, LC-MS/MS는 그것을 단순히 읽어내는 장비라고 생각한다.
물론 어느 정도는 맞는 말이다.
하지만 실제 Omics 연구를 오래 하다 보면 조금 불편한 사실을 발견하게 된다.
우리가 얻는 결과는 샘플이 가진 정보만으로 결정되지 않는다.
어떤 전처리(preprocessing)를 선택했는가에 따라 결과 자체가 달라질 수 있다.
더 정확히 말하면, 같은 raw data를 가지고도 연구자마다 전혀 다른 생물학적 결론에 도달할 수 있다.
이 사실은 처음에는 믿기 어렵다.
왜냐하면 많은 사람들은 전처리를 단순히 데이터를 깨끗하게 만드는 과정이라고 생각하기 때문이다.
그러나 실제 전처리는 필터(filter)에 가깝다.
어떤 신호는 강조하고,
어떤 신호는 제거하고,
어떤 차이는 확대하며,
어떤 차이는 축소한다.
즉 전처리는 생물학을 보여주는 창이 아니라 생물학을 해석하는 렌즈에 가깝다.
그리고 렌즈가 달라지면 보이는 세계도 달라진다.
1. 전처리는 분석 전 단계가 아니라 분석의 일부다
많은 연구자가 갖는 가장 큰 오해가 있다.
Raw data는 진실이고
전처리는 단순한 정리 과정이라는 생각이다.
하지만 실제로 raw data 자체도 이미 수많은 기술적 영향을 포함한다.
예를 들어 LC-MS 데이터에는:
- Instrument drift
- Batch effect
- Ion suppression
- Missing value
- Noise
등이 존재한다.
전처리는 이러한 문제를 해결하기 위해 필요하다.
문제는 이 과정에서 biological signal도 함께 변할 수 있다는 점이다.
즉 전처리는 중립적 과정이 아니다.
2. Missing Value 처리 하나로 바이오마커가 생기기도 한다
Proteomics와 Metabolomics에서는 missing value가 매우 흔하다.
어떤 단백질은 특정 샘플에서 검출되지 않는다.
어떤 대사체는 detection limit 아래에 존재한다.
이때 연구자는 결정을 내려야 한다.
결측치를 어떻게 처리할 것인가?
대표적으로:
- Mean imputation
- Median imputation
- KNN
- Random forest
- Left-censored imputation
등이 사용된다.
문제는 어떤 방법을 선택하느냐에 따라 fold change가 달라질 수 있다는 점이다.
심지어 유의하지 않던 단백질이 유의하게 변하기도 한다.
실제로 일부 바이오마커 후보는 biological signal이 아니라 imputation artifact인 경우도 있다.
3. Normalization은 결과를 재구성한다
Normalization은 거의 모든 Omics 분석에서 필수다.
왜냐하면 샘플 간 총 신호량이 다르기 때문이다.
하지만 Normalization은 단순한 보정이 아니다.
대표적인 방법들을 보자.
- Total ion normalization
- Median normalization
- Quantile normalization
- VSN
- LOESS
각 방법은 서로 다른 가정을 가진다.
예를 들어 Total ion normalization은 대부분의 feature가 변하지 않는다고 가정한다.
하지만 실제로 질병 상태에서 전체 metabolome이 변했다면?
Normalization이 진짜 biological signal을 제거할 수도 있다.
4. PCA 결과조차 전처리에 따라 달라진다
연구자들이 가장 좋아하는 그림 중 하나가 PCA다.
PCA plot에서 질병군과 대조군이 깔끔하게 분리되면 매우 만족스럽다.
하지만 의외로 PCA는 전처리에 매우 민감하다.
예를 들어:
Raw intensity
↓
Log transformation
↓
Scaling
↓
Normalization
을 어떻게 적용하느냐에 따라 PCA 구조가 달라진다.
어떤 경우에는 완벽히 분리되던 군집이 사라지기도 한다.
5. Log Transformation은 작은 차이를 크게 만든다
Omics 데이터는 보통 매우 비대칭적이다.
그래서 log transformation을 수행한다.
이 과정은 유용하다.
하지만 동시에 데이터의 의미를 바꾼다.
예를 들어:
100 → 200
과
1 → 2
는 raw scale에서는 매우 다르다.
그러나 log scale에서는 동일한 fold change로 보인다.
즉 어떤 변화를 중요하게 볼 것인지가 달라진다.
6. Scaling 방법이 Pathway를 바꾼다
Metabolomics에서는 scaling 선택이 중요하다.
대표적으로:
- Unit variance scaling
- Pareto scaling
- Range scaling
등이 있다.
Unit variance scaling은 low abundance metabolite를 강조한다.
반면 Pareto scaling은 중간 수준의 metabolite를 더 반영한다.
결과적으로:
동일 데이터
↓
다른 scaling
↓
다른 PCA
↓
다른 biomarker
↓
다른 pathway
가 발생할 수 있다.
7. Batch Correction은 생물학도 제거할 수 있다
Batch effect는 반드시 제거해야 한다.
하지만 여기에도 함정이 있다.
예를 들어:
실험 batch와 질병 상태가 우연히 겹쳤다고 하자.
Batch correction 알고리즘은 이를 기술적 변동으로 판단할 수 있다.
결과적으로:
진짜 biological signal
↓
batch effect로 인식
↓
제거
될 수 있다.
8. Filtering 기준이 결과를 만든다
Proteomics에서는 흔히 다음과 같은 필터를 사용한다.
- 50% 이상 missing 제거
- Low intensity 제거
- Low variance 제거
문제는 어떤 feature가 제거되는가에 따라 biology가 달라진다는 점이다.
특히 low abundance biomarker는 filtering 단계에서 사라질 수 있다.
9. Differential Expression 결과도 전처리에 의존한다
많은 사람들은 p-value가 객관적이라고 생각한다.
하지만 p-value 역시 전처리 결과다.
Normalization
↓
Scaling
↓
Missing value 처리
↓
Statistical test
를 거쳐 계산된다.
즉 p-value는 raw biology가 아니라 분석 파이프라인의 산물이다.
10. Metabolomics에서 특히 심한 이유
Proteomics보다 Metabolomics가 더 민감한 경우가 많다.
왜냐하면 metabolite 농도 범위가 매우 넓기 때문이다.
일부 metabolite는 μM 수준이고
일부는 nM 수준이다.
따라서 scaling과 normalization 선택이 결과에 더 큰 영향을 준다.
11. Machine Learning은 전처리에 더욱 민감하다
AI 기반 biomarker 연구에서는 문제가 더 커진다.
Machine learning 모델은 전처리 결과를 그대로 학습한다.
즉:
전처리 bias
↓
모델 학습
↓
높은 정확도
가 발생할 수 있다.
결과적으로 모델은 biology보다 preprocessing artifact를 학습할 수도 있다.
12. 실제 연구에서 자주 발생하는 상황
동일한 raw data를 두 연구자가 분석한다.
연구자 A:
Median normalization
↓
KNN imputation
↓
PCA
↓
Inflammation pathway
연구자 B:
Quantile normalization
↓
Random forest imputation
↓
PCA
↓
Mitochondrial pathway
놀랍게도 둘 다 통계적으로 타당할 수 있다.
그러나 결론은 다르다.
13. 전처리는 가정을 선택하는 과정이다
이 사실이 중요하다.
전처리는 단순 기술 작업이 아니다.
각 방법은 특정 가정을 가진다.
예를 들어:
Quantile normalization
↓
모든 샘플 분포가 같다고 가정
Total ion normalization
↓
대부분 feature는 변하지 않는다고 가정
KNN imputation
↓
유사 샘플이 존재한다고 가정
즉 전처리는 결국 어떤 세계관을 데이터에 적용할 것인가의 문제다.
14. 그래서 재현성이 어려워진다
논문에서 전처리 과정이 충분히 기술되지 않으면 문제가 발생한다.
다른 연구자가 동일 데이터를 분석해도 같은 결과를 얻기 어렵다.
실제로 Omics 분야 재현성 문제의 상당 부분은 전처리 단계에서 시작된다.
15. 실무적으로 어떻게 접근해야 할까
경험 많은 연구자들은 보통 하나의 전처리 결과만 믿지 않는다.
대신:
- 여러 normalization 비교
- 여러 imputation 비교
- Sensitivity analysis 수행
을 한다.
만약 특정 biomarker가 모든 조건에서 유지된다면 신뢰도가 높다.
반대로 특정 설정에서만 나타난다면 조심해야 한다.
결론
Omics 연구에서 전처리는 단순히 데이터를 정리하는 과정이 아니다. 그것은 데이터를 어떤 방식으로 볼 것인가를 결정하는 과정이며, 결과적으로 생물학적 결론 자체를 바꿀 수 있는 강력한 단계다.
Missing value 처리, normalization, scaling, filtering, batch correction과 같은 선택들은 모두 특정 가정을 데이터에 적용한다. 그리고 그 가정이 달라지면 PCA 구조가 달라지고, differential expression 결과가 달라지고, pathway enrichment 결과가 달라지며, 결국 연구자가 내리는 생물학적 해석도 달라질 수 있다.
특히 위험한 점은 이러한 변화가 대부분 통계적으로는 정당해 보인다는 것이다. 서로 다른 전처리 방법이 모두 합리적일 수 있지만, 그 결과는 전혀 다른 생물학을 이야기할 수 있다.
결국 Omics 데이터 분석에서 가장 중요한 질문 중 하나는 "무엇이 유의한가?"가 아니라 "이 결과가 전처리 방법이 바뀌어도 유지되는가?"일 수 있다.
왜냐하면 진짜 biological signal은 분석 파이프라인이 달라져도 살아남지만, preprocessing artifact는 특정 설정 안에서만 존재하는 경우가 많기 때문이다.
'제약산업' 카테고리의 다른 글
| 재현되지 않는 Proteomics 연구의 공통된 패턴 (0) | 2026.06.11 |
|---|---|
| Multi-omics Integration에서 발생하는 해석 오류 (0) | 2026.06.10 |
| Proteomics 데이터로 Mechanism을 단정하면 위험한 이유 (0) | 2026.06.09 |
| Functional Annotation의 한계 (0) | 2026.06.08 |
| Protein interaction 데이터의 신뢰성 문제 (0) | 2026.06.07 |
| Database Bias가 해석을 왜곡하는 방식 (0) | 2026.06.06 |
| Network analysis가 과해석으로 이어지는 이유 (0) | 2026.06.05 |
| Proteomics에서 Causation vs Correlation 구분하는 방법 (0) | 2026.06.04 |
- Total
- Today
- Yesterday
- bioanalysis
- audit
- Missing Value
- 치료제
- 정밀의료
- metabolomics
- 정량분석
- Proteomics
- 약물분석
- lc-ms/ms
- 미래산업
- 해석
- 데이터
- 재현성
- Multi-omics
- LC-MS
- 신약개발
- 바이오마커
- 임상시험
- 분석팀
- Targeted Metabolomics
- 제약산업
- matrix effect
- Biomarker
- 분석
- biological signal
- AI
- 제약
- 대사체 분석
- 시스템
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
