Pathway enrichment가 잘못된 결론을 만드는 과정

티스토리 뷰

제약산업

Pathway enrichment가 잘못된 결론을 만드는 과정

pharma_info 2026. 6. 3. 20:23

728x90

Proteomics에서 가장 그럴듯한 그림이 가장 위험할 수도 있는 이유

Proteomics 분석이 끝나면 대부분의 연구자는 비슷한 과정을 거친다.

Raw data를 처리하고, protein identification을 수행하고, differential expression 분석을 진행한다. 그리고 마지막 단계에서 pathway enrichment를 수행한다.

이때부터 데이터는 갑자기 이해하기 쉬워진다.

수천 개의 protein 리스트는 너무 복잡하다. 하지만 pathway enrichment 결과는 훨씬 직관적이다.

Inflammatory response activation
Oxidative phosphorylation suppression
Cell cycle regulation alteration
PI3K-AKT signaling enrichment

이런 결과를 보면 연구자는 마치 생물학적 현상의 본질을 발견한 것처럼 느낀다. 논문에서도 pathway figure는 대개 가장 중요한 그림 중 하나가 된다.

문제는 바로 여기서 시작된다.

Pathway enrichment는 생각보다 biology를 직접 보여주는 분석이 아니다. 오히려 수많은 통계적 가정과 annotation database의 구조, 그리고 upstream preprocessing 결과 위에 세워진 해석 모델에 가깝다.

즉 pathway enrichment는 biology를 발견하는 과정인 동시에 biology를 만들어내는 과정이기도 하다.

그리고 이 사실을 이해하기 시작하면 이전에는 너무 설득력 있어 보였던 pathway figure가 전혀 다르게 보이기 시작한다.

1. Pathway enrichment는 실제 pathway를 측정하지 않는다

가장 먼저 이해해야 할 것은 pathway enrichment의 본질이다.

많은 사람들이 pathway enrichment를 다음처럼 생각한다.

"실험 결과를 보니 특정 pathway가 활성화되었다."

하지만 실제로 enrichment analysis는 pathway activity를 직접 측정하지 않는다.

우리가 가진 것은 보통 다음과 같은 정보다.

Differential protein list
Fold change
P-value

그리고 software는 이 리스트를 annotation database와 비교한다.

즉 enrichment는 실제 signaling flux를 측정하는 것이 아니라,

"현재 변화한 protein들이 특정 pathway 구성원과 얼마나 많이 겹치는가"

를 계산하는 과정이다.

생각보다 훨씬 간접적인 추론이다.

2. Annotation database는 완벽하지 않다

Pathway enrichment의 첫 번째 함정은 database 자체다.

대표적으로 사용되는 것은:

KEGG
Reactome
Gene Ontology

같은 리소스들이다.

하지만 pathway는 원래 인간이 만든 분류 체계다.

실제 biology는 서로 연결된 거대한 네트워크인데, database는 이를 이해하기 쉽도록 pathway 단위로 나누어 놓는다.

문제는 pathway 경계가 생각보다 임의적이라는 점이다.

어떤 protein은:

Inflammation
Apoptosis
Cell cycle
Stress response

에 동시에 포함될 수 있다.

즉 동일 protein 변화가 여러 pathway enrichment를 동시에 만들어낼 수 있다.

3. 같은 데이터에서도 database마다 결과가 다르다

실제 proteomics 데이터를 KEGG와 Reactome으로 분석하면 전혀 다른 pathway 결과가 나오는 경우가 흔하다.

왜냐하면 pathway 정의 자체가 다르기 때문이다.

예를 들어 동일 protein set이라도:

KEGG에서는

PI3K-AKT signaling

으로 분류될 수 있고,

Reactome에서는

Growth factor signaling

으로 해석될 수 있다.

즉 pathway enrichment 결과는 biology 자체라기보다 database ontology 영향을 강하게 받는다.

4. Differential protein list가 이미 편향되어 있다

많은 연구자가 놓치는 부분이 있다.

Pathway enrichment는 원본 데이터가 아니라 differential protein list를 입력으로 사용한다.

즉 enrichment 결과는 이미 여러 단계의 filtering을 통과한 결과물이다.

그 이전에는:

Missing value 처리
Normalization
Protein inference
Fold change cutoff
Multiple testing correction

이 수행된다.

그리고 이 과정에서 특정 protein들은 살아남고, 특정 protein들은 제거된다.

즉 pathway enrichment는 원래 biology가 아니라,

"surviving protein subset"

을 해석한다.

5. Cutoff 하나가 pathway를 만들 수도 있다

실제로 매우 흔한 상황이다.

예를 들어 p-value cutoff를 0.05로 설정했다고 하자.

그러면 어떤 pathway 관련 protein은 리스트에 포함되고, 어떤 protein은 제외된다.

만약 cutoff를 0.1로 바꾸면?

전혀 다른 pathway가 enrichment될 수 있다.

즉 pathway 결과는 biology뿐 아니라 threshold 설정에도 의존한다.

연구자는 pathway를 발견했다고 생각하지만, 실제로는 cutoff parameter를 발견한 것일 수도 있다.

6. Shared protein이 pathway를 과장한다

많은 pathway는 핵심 protein을 공유한다.

예를 들어:

MAPK signaling
PI3K signaling
EGFR signaling
Cell proliferation

은 상당수 구성원이 겹친다.

그래서 특정 hub protein 몇 개만 변해도 여러 pathway가 동시에 enrichment된다.

결과적으로 논문에서는:

Inflammation activation
Stress response activation
Growth signaling activation

같은 거대한 biological narrative가 만들어진다.

하지만 실제 변화는 단 몇 개의 shared node 때문일 수도 있다.

7. High abundance protein이 pathway를 지배한다

Proteomics에서는 detection bias가 존재한다.

Housekeeping protein이나 abundant structural protein은 잘 보인다.

반면:

kinase
transcription factor
cytokine

같은 signaling protein은 잘 보이지 않는다.

결국 pathway enrichment는 실제 biology보다 "잘 검출된 biology"를 반영할 가능성이 있다.

즉 enrichment 결과는 signaling network보다 detectable proteome을 보여주는 경우가 많다.

8. Pathway는 방향성을 잃어버릴 수 있다

Over-representation analysis(ORA)의 가장 큰 문제 중 하나다.

예를 들어 pathway 구성원 중:

절반은 증가
절반은 감소

했다고 가정하자.

ORA는 단순히 "많이 포함되었다"는 사실만 본다.

즉 pathway activation인지 suppression인지 명확히 알 수 없다.

그런데 연구자는 종종 enrichment를 activation으로 해석한다.

이 과정에서 실제 biology와 전혀 다른 결론이 만들어질 수 있다.

9. GSEA도 완벽하지 않다

이를 보완하기 위해 사용하는 방법이 GSEA(Gene Set Enrichment Analysis)다.

GSEA는 cutoff 없이 전체 protein ranking을 사용한다.

분명 ORA보다 강력한 방법이다.

하지만 여전히 문제는 남는다.

GSEA 결과는:

ranking metric
normalization
missing handling
fold change estimation

에 영향을 받는다.

즉 input ranking이 달라지면 enrichment 결과도 달라진다.

결국 GSEA 역시 upstream processing 구조를 그대로 반영한다.

10. Pathway 이름이 주는 착시

가장 위험한 부분은 pathway 이름 자체다.

예를 들어 결과에:

"Immune response"

가 나타났다고 하자.

연구자는 자연스럽게:

"면역 반응이 활성화되었다"

고 해석한다.

하지만 실제로는 immune-related protein 몇 개가 포함되었을 뿐일 수도 있다.

Pathway 이름은 biological certainty를 암시한다.

그러나 enrichment는 본질적으로 statistical association일 뿐이다.

11. 실제 재현성 문제의 상당수는 pathway 단계에서 발생한다

흥미롭게도 개별 protein보다 pathway 결과가 더 재현성이 높다고 알려져 있다.

하지만 이것이 항상 좋은 의미는 아니다.

왜냐하면 동일한 preprocessing bias가 반복되면 동일 pathway가 계속 나타날 수 있기 때문이다.

즉 pathway reproducibility가 biology reproducibility를 의미하지는 않는다.

12. 실제 연구에서 자주 발생하는 사례

암 proteomics 연구를 보면:

Cell cycle activation
DNA repair activation
Metabolic reprogramming

같은 pathway가 반복적으로 등장한다.

물론 실제 biology일 수도 있다.

하지만 일부는 pathway database 구조 때문이기도 하다.

잘 연구된 pathway일수록 annotation이 풍부하고 enrichment되기 쉽다.

반대로 새로운 biology는 pathway annotation 자체가 부족해 발견되지 않을 수 있다.

즉 pathway enrichment는 이미 알려진 biology를 우선적으로 보여주는 경향이 있다.

13. 실무적으로 어떻게 접근해야 하는가

Pathway enrichment는 매우 유용하다.

문제는 결과를 "증거"가 아니라 "가설"로 봐야 한다는 점이다.

실무적으로는:

여러 database 비교

KEGG, Reactome, GO 결과를 함께 확인한다.

Leading-edge protein 확인

실제로 enrichment를 주도하는 protein이 무엇인지 본다.

Cutoff sensitivity 확인

Threshold 변경 시 결과가 유지되는지 확인한다.

Protein-level evidence 확인

Pathway만 보지 말고 개별 protein behavior도 함께 본다.

Independent validation 수행

Functional assay나 orthogonal experiment로 pathway activity를 검증한다.

결론

Pathway enrichment는 biology를 직접 측정하는 방법이 아니다. 실제로는 differential protein 리스트와 annotation database 사이의 통계적 겹침을 해석하는 과정에 가깝다.

문제는 이 과정이 normalization, missing value 처리, protein inference, statistical cutoff, database 구조 등 수많은 가정 위에 세워져 있다는 점이다. 따라서 enrichment 결과는 실제 pathway activity를 보여주는 동시에, 분석자가 선택한 pipeline의 특성도 함께 반영한다.

즉 pathway enrichment는 biological truth detector가 아니라 biological hypothesis generator에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 설득력 있어 보였던 pathway figure가 다르게 보이기 시작한다. 왜 database마다 결과가 다른지, 왜 cutoff 하나로 pathway가 사라지는지, 왜 validation에서 일부 pathway가 재현되지 않는지에 대한 답이 enrichment 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Protein interaction 데이터의 신뢰성 문제 (0)	2026.06.07
Database Bias가 해석을 왜곡하는 방식 (0)	2026.06.06
Network analysis가 과해석으로 이어지는 이유 (0)	2026.06.05
Proteomics에서 Causation vs Correlation 구분하는 방법 (0)	2026.06.04
Upregulated Protein이 항상 기능 증가를 의미하지 않는 이유 (0)	2026.06.02
Multiple testing correction이 결과를 바꾸는 방식 (0)	2026.06.01
Statistical cutoff 설정의 함정 (0)	2026.05.31
Peptide redundancy가 해석을 어렵게 만드는 이유 (0)	2026.05.30

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰