티스토리 뷰
– 통계적 유의성과 생물학적 의미 사이에서 균형을 잡는 방법

Metabolomics 연구를 진행하다 보면 매우 흥미로운 순간을 맞이하게 된다. 수천 개의 feature를 분석한 뒤 통계 분석을 수행하면 여러 metabolite가 통계적으로 유의한 차이를 보이기 시작한다. volcano plot이나 heatmap을 보면 질병군과 대조군이 분명하게 분리되고, 특정 metabolite들은 매우 낮은 p-value를 나타낸다. 연구자는 자연스럽게 이러한 결과를 기반으로 새로운 생물학적 해석을 시도하게 된다.
하지만 metabolomics 연구에서는 바로 이 지점에서 중요한 위험이 존재한다. false discovery, 즉 실제로는 의미 없는 신호를 중요한 생물학적 변화로 해석하는 오류가 매우 쉽게 발생할 수 있기 때문이다. 특히 untargeted metabolomics에서는 분석되는 변수의 수가 매우 많기 때문에 이러한 문제가 더욱 심각해질 수 있다.
실제로 metabolomics 연구에서 보고되는 통계적으로 유의한 metabolite 중 상당수는 이후 독립적인 실험에서 재현되지 않는 경우도 있다. 이는 분석 기술의 문제라기보다 데이터 해석 과정에서의 사고 방식과 깊이 관련되어 있다.
이 글에서는 metabolomics 연구에서 false discovery가 왜 발생하는지, 그리고 이를 줄이기 위해 어떤 사고 방식이 필요한지 살펴보고자 한다.
1. Metabolomics에서 false discovery가 쉽게 발생하는 이유
Untargeted metabolomics 데이터는 매우 높은 차원의 정보를 포함하고 있다. 일반적인 LC-MS 분석에서는 다음과 같은 규모의 데이터가 생성된다.
- 수천에서 수만 개의 feature
- 수십 개의 sample
- 다양한 통계적 비교
이 구조에서는 통계적으로 유의한 결과가 우연히 나타날 가능성이 높아진다. 예를 들어 10,000개의 feature를 동시에 비교하면 단순한 확률 계산만으로도 상당수의 feature가 p-value 기준을 통과할 수 있다.
이 문제는 흔히 multiple testing problem으로 설명된다. 많은 변수에 대해 동시에 검정을 수행하면 우연히 유의한 결과가 나타나는 확률이 증가한다. 따라서 metabolomics 데이터에서는 통계적으로 유의한 결과가 반드시 실제 생물학적 변화를 의미한다고 볼 수 없다.
2. 통계적 유의성과 생물학적 의미의 차이
Metabolomics 연구에서 가장 흔한 오해 중 하나는 통계적 유의성과 생물학적 의미를 동일하게 생각하는 것이다.
예를 들어 어떤 metabolite가 다음과 같은 결과를 보였다고 가정해 보자.
- p-value = 0.0005
- fold change = 1.15
통계적으로는 매우 유의해 보이지만, 실제 생물학적 시스템에서 이러한 변화가 의미 있는지는 별도의 문제이다. 생체 시스템은 다양한 변동성을 가지기 때문에 작은 변화는 단순한 생리적 변동일 수도 있다.
특히 metabolomics 데이터에서는 sample preparation, instrument variation, batch effect 등 다양한 요인이 신호에 영향을 줄 수 있다. 이러한 기술적 요인이 통계적 차이로 나타날 가능성도 항상 존재한다.
따라서 metabolomics 연구에서 중요한 것은 p-value 자체보다 변화의 맥락을 이해하는 것이다.
3. 하나의 metabolite로 생물학적 결론을 내리는 위험
False discovery가 발생하는 또 하나의 이유는 연구자가 단일 metabolite 변화에 지나치게 큰 의미를 부여하는 경우이다.
대사 네트워크는 매우 복잡하게 연결되어 있다. 하나의 metabolite는 여러 metabolic pathway와 동시에 연결되어 있으며, 다양한 효소 반응에 참여한다. 따라서 단일 metabolite 변화만으로 특정 pathway의 활성화나 억제를 결론 내리는 것은 매우 위험하다.
예를 들어 lactate 증가가 관찰되었다고 해서 반드시 glycolysis가 활성화되었다고 단정할 수는 없다. lactate 농도는 다음과 같은 다양한 요인에 의해 영향을 받을 수 있다.
- 산소 공급 상태
- mitochondrial activity
- 세포 밀도
- sample 처리 과정
따라서 metabolomics 데이터를 해석할 때는 단일 metabolite보다 metabolite 패턴 전체를 고려하는 접근이 필요하다.
4. Feature 수준과 metabolite 수준의 차이
Untargeted metabolomics 데이터에서 또 하나 중요한 점은 feature와 metabolite가 반드시 동일하지 않다는 것이다.
LC-MS 데이터에서 하나의 metabolite는 다음과 같은 여러 형태로 나타날 수 있다.
- different adducts
- isotope peak
- in-source fragment
- dimer ion
반대로 하나의 feature가 여러 metabolite 후보를 가질 수도 있다. 특히 구조 이성질체가 많은 metabolite class에서는 이러한 문제가 자주 발생한다.
이 때문에 feature 수준에서 통계적으로 유의한 차이가 나타났다고 해서 그것이 반드시 특정 metabolite의 변화라고 단정하기는 어렵다. annotation 과정 자체도 일정한 불확실성을 포함하고 있기 때문이다.
5. ㅊ와 기술적 변동성
Metabolomics 데이터에서 false discovery를 유발하는 가장 흔한 원인 중 하나는 batch effect이다. LC-MS 분석은 매우 민감한 기술이기 때문에 분석 조건의 작은 변화도 데이터에 영향을 줄 수 있다.
대표적인 예로는 다음과 같은 것들이 있다.
- column aging
- ion source contamination
- sample injection order
- instrument calibration 상태
이러한 요인들은 특정 feature의 intensity를 변화시킬 수 있으며, 경우에 따라 biological group 간 차이처럼 보일 수도 있다. 따라서 metabolomics 데이터에서는 항상 기술적 변동성과 생물학적 변이를 구분하려는 노력이 필요하다.
6. 재현성(reproducibility)을 중심으로 생각하기
False discovery를 줄이기 위한 가장 중요한 기준 중 하나는 재현성이다. 어떤 metabolite 변화가 실제 biological signal이라면 다음과 같은 특징을 보여야 한다.
- 독립적인 experiment에서도 관찰됨
- 다른 cohort에서도 동일한 경향
- 관련 metabolite들과 함께 변화
즉 하나의 dataset에서만 나타나는 변화는 항상 신중하게 해석해야 한다. metabolomics 연구에서는 특히 validation experiment의 중요성이 강조되는 이유가 여기에 있다.
7. Metabolic network 관점에서 해석하기
Metabolomics 데이터를 해석할 때 도움이 되는 또 하나의 사고 방식은 metabolic network 관점이다.
대사 반응은 개별 화합물이 아니라 연결된 네트워크로 작동한다. 따라서 실제 biological perturbation이 발생하면 다음과 같은 패턴이 나타나는 경우가 많다.
- 같은 pathway에 속한 metabolite들의 동시 변화
- precursor–product 관계의 변화
- metabolite ratio 변화
이러한 패턴이 관찰되면 해당 변화가 실제 biological signal일 가능성이 높아진다. 반대로 단일 metabolite만 변화하는 경우에는 false discovery일 가능성도 고려해야 한다.
8. 데이터 해석에서의 보수적 접근
Metabolomics 연구에서는 종종 매우 흥미로운 결과가 나타난다. 하지만 바로 그 이유 때문에 연구자는 결과를 해석할 때 더욱 신중해야 한다.
False discovery를 줄이기 위한 한 가지 중요한 원칙은 보수적 해석이다. 이는 데이터를 과소평가하라는 의미가 아니라, 결과가 의미하는 범위를 정확하게 인식하라는 의미에 가깝다.
예를 들어 다음과 같은 표현은 서로 다른 수준의 확신을 나타낸다.
“이 pathway가 활성화되었다.”
“이 pathway가 변화했을 가능성이 있다.”
두 문장은 비슷해 보이지만, 해석의 범위는 크게 다르다.
9. Metabolomics 데이터 해석의 핵심 질문
Metabolomics 연구에서 false discovery를 줄이기 위해서는 데이터를 볼 때 다음과 같은 질문을 반복적으로 던질 필요가 있다.
- 이 변화가 기술적 요인으로 설명될 수 있는가
- 동일 pathway의 다른 metabolite도 함께 변하는가
- 다른 dataset에서도 동일한 결과가 나타나는가
- biological mechanism과 논리적으로 연결되는가
이러한 질문을 통해 데이터 해석 과정에서 과도한 확신을 줄일 수 있다.
결론
Metabolomics 연구에서 false discovery는 피하기 어려운 문제이다. 높은 차원의 데이터와 복잡한 생물학적 시스템이 결합되어 있기 때문에, 통계적으로 유의한 결과가 항상 실제 biological signal을 의미하지는 않는다.
따라서 metabolomics 데이터를 해석할 때 중요한 것은 더 많은 metabolite를 발견하는 것이 아니라, 어떤 결과가 신뢰할 수 있는지 판단하는 사고 방식을 갖는 것이다.
결국 좋은 metabolomics 연구는 단순히 많은 결과를 제시하는 연구가 아니라, 데이터의 불확실성을 이해하면서도 재현 가능한 생물학적 가설을 제시하는 연구라고 할 수 있다.
'제약산업' 카테고리의 다른 글
| 라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정 (1) | 2026.03.23 |
|---|---|
| Unknown peak를 버리는 순간 잃어버리는 과학적 가능성 (0) | 2026.03.22 |
| Annotation confidence가 높아질수록 해석이 위험해지는 이유 (0) | 2026.03.21 |
| Metabolite identification이 아니라‘가설 생성 과정’으로 보는 metabolomics (0) | 2026.03.20 |
| Single-cell proteomics 미래 (1) | 2026.03.19 |
| Multi-omics에서 proteomics 역할 (0) | 2026.03.18 |
| 단백질 abundance vs 기능 문제 (0) | 2026.03.17 |
| Plasma proteomics 편향 (0) | 2026.03.16 |
- Total
- Today
- Yesterday
- ich m10
- Proteomics
- 바이오마커
- audit
- bioanalysis
- lc-ms/ms
- 제약산업
- 신약개발
- Multi-omics
- 데이터 해석
- 약물분석
- 약물개발
- 미래산업
- LC-MS
- 분석팀
- metabolomics
- 정밀의료
- 임상시험
- Targeted Metabolomics
- 제약
- AI
- matrix effect
- 치료제
- 시스템
- 분석
- 대사체 분석
- 데이터
- Biomarker
- Spatial metabolomics
- 정량분석
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
