티스토리 뷰
– 데이터 해석 도구가 결론처럼 보이기 시작할 때

Omics 연구를 진행하다 보면 거의 모든 분석의 마지막 단계에서 등장하는 그림이 있다. 바로 pathway enrichment 결과이다.
Transcriptomics, proteomics, metabolomics, 심지어 multi-omics 연구에서도 분석이 끝나면 흔히 다음과 같은 결과가 등장한다.
- Glycolysis pathway enrichment
- TCA cycle alteration
- Amino acid metabolism dysregulation
- Lipid metabolism pathway activation
그리고 많은 논문에서 이러한 결과는 다음과 같은 문장으로 이어진다.
“본 연구 결과는 해당 질병에서 glycolysis pathway가 활성화되어 있음을 시사한다.”
문장은 자연스럽고 설득력 있게 들린다. 하지만 여기서 중요한 질문이 하나 있다.
Pathway 분석 결과는 과연 실제 생물학적 사실일까?
현실적으로 말하면 대부분의 경우 그렇지 않다. Pathway 분석은 데이터를 해석하기 위한 통계적 도구일 뿐이며, 그 자체가 생물학적 사실을 직접 증명하는 것은 아니다. 그러나 많은 연구에서 pathway 분석 결과가 마치 실험적으로 검증된 biological mechanism처럼 해석되는 순간이 존재한다.
이 글에서는 pathway 분석이 왜 과학적 사실처럼 보이게 되는지, 그리고 그 과정에서 어떤 해석상의 위험이 발생하는지 살펴보고자 한다.
1. Pathway 분석은 기본적으로 통계적 요약이다
Pathway enrichment 분석의 기본 원리는 비교적 단순하다.
먼저 differential analysis를 통해 변화가 있는 gene, protein, 또는 metabolite 리스트를 만든다. 그 다음 해당 리스트에 특정 pathway 관련 요소가 얼마나 많이 포함되어 있는지를 계산한다.
즉 pathway 분석은 다음 질문에 답하는 통계적 절차이다.
“이 pathway에 속한 요소들이 우연히 모였을 가능성은 얼마나 낮은가?”
이 과정에서 계산되는 것은 보통 다음과 같은 값들이다.
- enrichment score
- p-value
- adjusted p-value
- false discovery rate (FDR)
하지만 여기서 중요한 점은 pathway 분석이 pathway의 실제 활성도를 측정하는 것이 아니라는 것이다. 단지 특정 pathway와 관련된 feature들이 데이터에서 상대적으로 많이 나타났다는 사실을 보여줄 뿐이다.
2. Pathway 정의 자체가 완전하지 않다
많은 연구자들이 간과하는 부분 중 하나는 pathway database 자체의 한계이다. 우리가 사용하는 대부분의 pathway 정보는 특정 데이터베이스에서 가져온 것이다.
대표적으로 다음과 같은 데이터베이스가 널리 사용된다.
- KEGG
- Reactome
- WikiPathways
- MetaCyc
이러한 데이터베이스는 생물학적 지식을 체계적으로 정리한 중요한 자원이지만, 동시에 몇 가지 중요한 제한을 가진다.
첫 번째는 pathway 경계가 명확하지 않다는 점이다. 실제 생물학적 시스템에서는 하나의 대사 반응이 여러 pathway에 동시에 속할 수 있다.
두 번째는 데이터베이스가 지속적으로 업데이트된다는 점이다. 즉 동일한 데이터를 분석하더라도 database version에 따라 pathway 결과가 달라질 수 있다.
세 번째는 특정 organism 중심으로 정리된 정보가 많다는 점이다. 인간 데이터에서도 일부 pathway 정보는 incomplete하거나 간접적인 경우가 존재한다.
이러한 이유로 pathway 분석 결과는 항상 현재 데이터베이스가 정의한 틀 안에서의 해석일 뿐이다.
3. 작은 변화가 큰 pathway 신호처럼 보일 수 있다
Pathway enrichment 분석에서 자주 발생하는 현상 중 하나는 몇 개의 feature 변화가 전체 pathway 변화처럼 보이는 상황이다.
예를 들어 특정 pathway에 속한 metabolite가 20개 있다고 가정해 보자. 이 중 2~3개만 유의하게 변해도 통계적으로 pathway enrichment가 나타날 수 있다.
하지만 실제 biological system에서는 다음과 같은 질문이 더 중요하다.
- pathway의 핵심 반응이 변화했는가
- rate-limiting step이 변화했는가
- pathway flux가 실제로 변했는가
단순히 몇 개의 구성 요소가 변화했다는 사실만으로 해당 pathway 전체가 활성화되었다고 결론 내리기는 어렵다.
4. Omics 데이터는 pathway flux를 직접 측정하지 않는다
특히 metabolomics 연구에서 pathway 해석이 과도해지는 경우가 많다. 그 이유는 metabolomics 데이터가 metabolite 농도(concentration)를 측정하기 때문이다.
하지만 metabolic pathway의 실제 활성도를 나타내는 것은 metabolite 농도가 아니라 metabolic flux이다.
예를 들어 glycolysis pathway를 생각해 보자. glycolytic flux가 증가하더라도 intermediate metabolite 농도는 크게 변하지 않을 수 있다. 반대로 metabolite 농도가 증가했다고 해서 반드시 pathway flux가 증가한 것은 아니다.
즉 metabolomics 기반 pathway 분석은 실제 metabolic activity를 직접 측정하는 것이 아니라 간접적인 힌트를 제공할 뿐이다.
5. Visualization이 확신을 만든다
Pathway 분석이 과학적 사실처럼 보이게 되는 또 다른 이유는 시각화 방식이다.
많은 분석 도구들은 pathway 결과를 다음과 같은 방식으로 보여준다.
- pathway diagram에 색깔로 표시된 metabolite
- network 형태의 pathway map
- heatmap 기반 pathway activity
이러한 그림은 매우 직관적이다. 특정 pathway가 붉은색으로 강조되어 있으면 연구자는 자연스럽게 다음과 같은 인상을 받게 된다.
“이 pathway가 실제로 활성화되었구나.”
하지만 실제로는 단순한 통계적 enrichment 결과가 시각적으로 강조된 것일 뿐이다. 인간의 인지 특성상 이러한 visualization은 데이터보다 강한 확신을 만들어 낼 수 있다.
6. Pathway 분석은 가설 생성 도구이다
Pathway 분석의 가장 중요한 역할은 biological hypothesis를 생성하는 것이다.
예를 들어 metabolomics 데이터에서 amino acid metabolism pathway가 enrichment 되었다면 이는 다음과 같은 질문을 제기할 수 있다.
- 해당 pathway의 핵심 enzyme이 실제로 변화했는가
- flux analysis에서 변화가 확인되는가
- isotope tracing 실험에서 pathway activity가 증가하는가
즉 pathway 분석은 연구 방향을 제시하는 출발점일 뿐이며, 그 자체가 결론이 되는 순간 해석의 위험이 커진다.
7. Multi-omics에서 pathway 해석이 더욱 복잡해지는 이유
Multi-omics 연구에서는 pathway 해석이 더 복잡해진다. transcriptomics, proteomics, metabolomics 데이터를 동시에 분석하면 동일한 pathway에 대해 서로 다른 결과가 나타날 수 있기 때문이다.
예를 들어 다음과 같은 상황이 가능하다.
- RNA expression 증가
- protein abundance 변화 없음
- metabolite 농도 감소
이러한 경우 pathway 분석 결과는 서로 다른 omics에서 상충될 수 있다. 하지만 이는 데이터 오류라기보다 biological regulation의 복잡성을 반영하는 경우가 많다.
8. 좋은 pathway 해석의 특징
Pathway 분석 결과를 해석할 때 몇 가지 중요한 질문을 던지는 것이 도움이 된다.
예를 들어 다음과 같은 질문이다.
- pathway 내 핵심 반응이 변화했는가
- precursor-product 관계가 일관적인가
- 여러 omics 데이터에서 동일한 신호가 나타나는가
- 독립적인 실험에서 재현되는가
이러한 질문을 통해 pathway 결과를 보다 신중하게 해석할 수 있다.
결론
Pathway 분석은 omics 데이터 해석에서 매우 강력한 도구이다. 복잡한 feature 리스트를 생물학적 맥락 안에서 이해할 수 있도록 도와주기 때문이다.
하지만 pathway 분석 결과가 곧바로 생물학적 사실을 의미하는 것은 아니다. 대부분의 경우 이는 단지 통계적 패턴을 요약한 결과일 뿐이다.
좋은 연구는 pathway 분석 결과를 최종 결론으로 사용하지 않는다. 대신 그 결과를 출발점으로 삼아 새로운 생물학적 질문을 만들어 낸다. 결국 pathway 분석의 진짜 가치는 정답을 제공하는 데 있는 것이 아니라, 더 좋은 질문을 만들어 내는 데 있다.
'제약산업' 카테고리의 다른 글
| Proteomics–Metabolomics 불일치가 의미하는 생물학적 메시지 (0) | 2026.03.28 |
|---|---|
| Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가 (0) | 2026.03.27 |
| Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유 (0) | 2026.03.26 |
| 동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유 (0) | 2026.03.25 |
| Metabolomics에서 false discovery를 줄이는 사고 방식 (0) | 2026.03.24 |
| 라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정 (1) | 2026.03.23 |
| Unknown peak를 버리는 순간 잃어버리는 과학적 가능성 (0) | 2026.03.22 |
| Annotation confidence가 높아질수록 해석이 위험해지는 이유 (0) | 2026.03.21 |
- Total
- Today
- Yesterday
- AI
- 약물개발
- 정량분석
- 대사체 분석
- Multi-omics
- 데이터
- matrix effect
- 분석
- 정밀의료
- 데이터 해석
- 약물분석
- 제약산업
- 제약
- 치료제
- ich m10
- 분석팀
- lc-ms/ms
- 신약개발
- metabolomics
- audit
- Spatial metabolomics
- Proteomics
- 바이오마커
- Biomarker
- 시스템
- 임상시험
- LC-MS
- bioanalysis
- Targeted Metabolomics
- 미래산업
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
