티스토리 뷰

728x90

Proteomics에서 Causation vs Correlation 구분하는 방법
Proteomics에서 Causation vs Correlation 구분하는 방법

단백질이 변했기 때문에 질병이 생긴 것일까, 아니면 질병 때문에 단백질이 변한 것일까

Proteomics 연구를 하다 보면 어느 순간 매우 자연스럽게 사용하는 표현이 있다.

"이 단백질이 암 진행을 유도한다."

"이 signaling pathway가 염증 반응을 활성화시킨다."

"이 biomarker가 질병 발생의 원인이다."

논문을 읽다 보면 이런 문장을 거의 매일 접하게 된다. Volcano plot에서 유의한 단백질을 찾고, pathway enrichment를 수행하고, network analysis까지 마치면 마치 생물학적 메커니즘이 밝혀진 것처럼 느껴진다.

하지만 조금만 냉정하게 생각해 보면 한 가지 문제가 보인다.

Proteomics가 실제로 측정한 것은 단지 abundance 변화뿐이라는 점이다.

어떤 단백질이 증가했다는 사실은 알 수 있다.

어떤 단백질이 감소했다는 사실도 알 수 있다.

그러나 그 변화가 질병의 원인인지, 결과인지, 혹은 전혀 관계없는 동반 현상인지는 proteomics 데이터만으로는 알 수 없다.

그런데도 많은 연구에서 correlation이 어느 순간 causation으로 바뀌어 버린다.

그리고 실제 omics 연구에서 가장 흔하게 발생하는 해석 오류 중 하나가 바로 여기서 시작된다.

1. Proteomics가 기본적으로 제공하는 것은 correlation이다

Proteomics 실험의 구조를 생각해 보자.

예를 들어:

  • 암 환자군
  • 정상 대조군

을 비교했다고 가정하자.

분석 결과 특정 단백질 A가 암 환자에서 5배 증가했다.

여기까지는 사실(fact)이다.

문제는 다음 문장부터다.

"단백질 A가 암을 유발한다."

이 순간 이미 해석이 들어간다.

왜냐하면 실제 데이터가 보여준 것은:

암 ↔ 단백질 A 증가

라는 동시 발생 현상뿐이기 때문이다.

즉 proteomics가 직접 증명한 것은 correlation이다.

2. Correlation은 생각보다 쉽게 만들어진다

실제 biological system에서는 수많은 변수들이 동시에 움직인다.

예를 들어 염증이 발생하면:

  • cytokine 증가
  • acute phase protein 증가
  • oxidative stress 증가
  • metabolic remodeling 발생

이 모두가 함께 나타난다.

이때 특정 protein이 염증과 강하게 연관되어 보일 수 있다.

하지만 그 protein이 실제 염증을 유발하는지는 전혀 다른 문제다.

단순히 염증 과정에서 같이 움직인 것일 수도 있다.

즉 biological association은 causality를 의미하지 않는다.

3. 가장 흔한 착각

Upregulated = Driver

Proteomics 논문에서 가장 자주 보이는 오류다.

어떤 protein이 크게 증가하면 연구자는 자연스럽게 중요하게 생각한다.

특히:

  • fold change 큼
  • p-value 작음
  • pathway enrichment 포함

이 세 가지가 동시에 나타나면 더욱 그렇다.

하지만 abundance change가 크다는 사실은 driver라는 증거가 아니다.

실제로는:

  • 보호 반응(protective response)
  • 보상 반응(compensatory response)
  • downstream consequence

일 수도 있다.

즉 가장 많이 변한 protein이 가장 중요한 원인이라는 보장은 없다.

4. Smoke와 Lung Cancer의 관계

인과관계를 설명할 때 자주 사용하는 예가 있다.

흡연과 폐암이다.

흡연은 폐암과 강한 상관관계를 가진다.

하지만 폐암 환자에서 증가하는 특정 inflammatory protein도 흡연과 강하게 연관될 수 있다.

예를 들어:

흡연 → 염증 → 단백질 증가

구조가 존재한다고 하자.

그러면 단백질과 폐암은 강하게 상관된다.

하지만 단백질이 폐암을 유발하는 것은 아니다.

실제 원인은 흡연이다.

Proteomics에서도 이와 동일한 구조가 매우 흔하다.

5. Reverse causation 문제

가장 흔하면서도 잘 보이지 않는 함정이다.

예를 들어 암 환자에서 특정 metabolic enzyme이 증가했다고 가정하자.

처음에는:

Enzyme 증가 → 암 진행

처럼 보인다.

하지만 실제로는:

암 진행 → 대사 재편성 → Enzyme 증가

일 수 있다.

즉 원인과 결과가 뒤집혀 있을 수 있다.

Proteomics는 특정 시점(snapshot)을 보는 경우가 많기 때문에 이런 reverse causation을 구분하기 어렵다.

6. Common cause의 존재

또 다른 문제는 hidden variable이다.

예를 들어:

Inflammation → Protein A 증가

Inflammation → Disease severity 증가

라고 하자.

그러면 Protein A와 disease severity는 매우 강하게 상관된다.

하지만 Protein A를 제거해도 disease는 변하지 않을 수 있다.

왜냐하면 둘 다 inflammation이라는 공통 원인의 결과이기 때문이다.

실제 proteomics biomarker 연구에서 이런 경우가 매우 많다.

7. Pathway enrichment는 causation 착각을 강화한다

Pathway analysis를 수행하면:

  • NF-κB activation
  • PI3K-AKT signaling activation
  • Cell cycle activation

같은 결과가 나온다.

이때 연구자는 쉽게:

"NF-κB가 질병을 유도한다"

고 결론 내린다.

하지만 enrichment는 pathway activity를 직접 측정한 것이 아니다.

단지 pathway 구성원들이 함께 변했다는 의미다.

즉 pathway correlation을 pathway causation으로 바꾸는 순간 해석 오류가 시작된다.

8. Network analysis도 causality를 증명하지 않는다

Protein-protein interaction network를 그리면 hub protein이 등장한다.

연구자는 종종:

"Hub protein이 핵심 조절자다"

라고 해석한다.

하지만 network centrality는 causality가 아니다.

많은 hub protein은 단순히:

  • annotation이 많고
  • 연구가 많이 되었고
  • interaction 정보가 풍부하기 때문

에 중심에 위치한다.

즉 network importance ≠ biological causality다.

9. 시간 정보가 없으면 인과관계는 매우 어렵다

Causation의 핵심 조건 중 하나는 시간 순서다.

원인은 결과보다 먼저 발생해야 한다.

하지만 대부분의 proteomics 연구는:

  • Disease group
  • Control group

을 한 시점에서 비교한다.

즉 longitudinal information이 없다.

이 경우:

원인 → 결과

인지

결과 → 원인

인지 판단하기 어렵다.

그래서 time-course proteomics가 중요한 이유가 여기에 있다.

10. Knockdown 실험은 왜 중요한가

인과관계를 검증하는 가장 강력한 방법 중 하나는 intervention이다.

예를 들어:

Protein A knockdown

후 phenotype 변화를 본다.

만약 질병 phenotype이 감소한다면:

Protein A → phenotype

관계에 대한 근거가 생긴다.

이것이 단순 correlation과 causation의 차이다.

Proteomics는 관찰(observation)이고,

Knockdown은 개입(intervention)이다.

인과관계는 개입 실험에서 훨씬 강하게 검증된다.

11. Proteomics에서 causation에 가까워지는 방법

완벽한 causality 증명은 어렵다.

하지만 몇 가지 전략이 도움이 된다.

① Time-course study

변화 순서를 확인한다.

Protein 변화가 phenotype보다 먼저 나타나는가?

② Perturbation experiment

  • Knockdown
  • Knockout
  • CRISPR
  • Drug inhibition

등을 수행한다.

③ Multi-omics integration

Transcriptomics

Proteomics

Phosphoproteomics

Metabolomics

를 함께 보면 upstream-downstream 관계를 추론할 수 있다.

④ Dose-response relationship

Protein abundance가 증가할수록 phenotype도 비례해서 증가하는가?

⑤ Independent validation

Cell model

Animal model

Clinical cohort

에서 동일 현상이 반복되는가?

12. Biomarker와 Driver를 혼동하면 안 된다

Proteomics에서 특히 자주 발생하는 문제다.

어떤 protein이 좋은 biomarker일 수 있다.

하지만 biomarker와 causal driver는 전혀 다른 개념이다.

예를 들어:

CRP는 염증을 매우 잘 반영한다.

그러나 CRP 자체가 대부분의 염증 질환 원인은 아니다.

즉:

좋은 biomarker ≠ 좋은 drug target

일 수 있다.

Proteomics 연구에서는 이 둘이 종종 혼동된다.

13. 실제 논문에서 자주 보이는 위험한 표현

다음 표현은 사실상 correlation 수준인 경우가 많다.

  • "Protein X regulates disease progression"
  • "Protein Y drives tumor growth"
  • "Pathway Z causes inflammation"

만약 근거가 differential expression과 enrichment뿐이라면,

보다 정확한 표현은:

  • "associated with"
  • "correlated with"
  • "linked to"

에 가깝다.

과학적으로는 이 차이가 매우 중요하다.

결론

Proteomics가 기본적으로 제공하는 것은 단백질 abundance 변화에 대한 관찰 정보다. 즉 대부분의 경우 우리가 얻는 것은 correlation이지 causation이 아니다.

어떤 단백질이 질병과 함께 증가했다는 사실은 알 수 있다. 하지만 그것이 질병의 원인인지, 결과인지, 혹은 공통 원인의 부산물인지는 proteomics 데이터만으로는 알 수 없다.

Reverse causation, hidden variable, compensatory response, pathway co-regulation 같은 구조는 상관관계를 매우 쉽게 만들어낸다. 그리고 연구자는 종종 이 상관관계를 원인으로 해석하는 실수를 범한다.

따라서 proteomics 결과를 해석할 때 가장 중요한 질문은 "무엇이 변했는가?"가 아니라 "그 변화가 실제로 무엇을 의미하는가?"이다.

이 질문을 계속 던지기 시작하면 이전에는 너무 명확해 보였던 volcano plot과 pathway enrichment 결과가 다르게 보이기 시작한다. 왜 어떤 biomarker가 좋은 진단 마커이면서도 실패한 drug target이 되는지, 왜 수많은 omics 연구가 재현되지 않는지, 왜 causality를 증명하기 위해 결국 knockdown과 functional assay가 필요한지에 대한 답이 바로 그 차이 안에 숨어 있기 때문이다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함