티스토리 뷰

728x90

Network analysis가 과해석으로 이어지는 이유
Network analysis가 과해석으로 이어지는 이유

연결선이 많아질수록 진실에 가까워지는 것이 아니라, 오히려 멀어질 수도 있다

Proteomics 연구를 진행하다 보면 어느 순간 반드시 만나게 되는 그림이 있다.

수십 개 또는 수백 개의 단백질이 원처럼 배치되어 있고, 그 사이를 수많은 선이 연결하고 있는 네트워크 그림이다.

처음 보면 굉장히 설득력이 있다.

단순한 Volcano plot보다 훨씬 생물학적으로 보인다.

Protein A가 Protein B와 연결되어 있고, Protein C는 여러 단백질과 동시에 연결되어 있다. 어떤 단백질은 네트워크 중앙에 크게 위치하고, 어떤 단백질은 주변부에 작게 배치된다.

그리고 연구자는 자연스럽게 생각한다.

"중앙에 있는 단백질이 핵심 조절자겠구나."

"연결선이 많은 단백질이 disease driver겠구나."

"이 네트워크가 질병 메커니즘을 보여주는구나."

실제로 최근 Proteomics 논문 상당수는 differential protein 분석 이후 network analysis를 수행한다.

대표적으로:

  • Cytoscape
  • STRING
  • Ingenuity Pathway Analysis

같은 도구들이 사용된다.

문제는 여기서부터다.

Network analysis는 biology를 보여주는 도구이기도 하지만, 동시에 biology가 존재하는 것처럼 보이게 만드는 도구이기도 하다.

그리고 실제로 omics 연구에서 가장 많이 과해석되는 단계 중 하나가 바로 network analysis다.

1. Network는 실제 실험 결과가 아니다

많은 사람들이 처음 놓치는 부분이다.

Proteomics 실험이 실제로 측정한 것은:

  • peptide intensity
  • protein abundance
  • fold change

뿐이다.

실험이 직접 측정한 것은 network가 아니다.

Network는 데이터 분석 단계에서 나중에 만들어진다.

예를 들어 differential protein 100개가 있다고 하자.

이 protein들을 STRING에 넣으면 interaction network가 생성된다.

문제는 이 network 대부분이 현재 실험에서 관찰된 것이 아니라는 점이다.

대부분은 과거 수천 편의 논문과 database에 저장된 interaction 정보다.

즉 연구자가 보는 네트워크는:

현재 실험 결과

기존 지식

의 결합체다.

2. 연결선은 현재 sample에서의 interaction을 의미하지 않는다

이 부분은 생각보다 중요하다.

STRING이나 Reactome 네트워크에서 선(edge)이 있다는 것은 보통 다음을 의미한다.

  • Literature evidence
  • Co-expression
  • Experimental interaction
  • Curated database
  • Predicted interaction

중 하나다.

즉 선이 있다는 사실이

"이번 환자 샘플에서 실제로 상호작용했다"

는 뜻은 아니다.

많은 경우 단지:

"어딘가의 연구에서 관련성이 보고된 적이 있다"

는 의미에 가깝다.

하지만 시각적으로는 마치 현재 실험에서 직접 관찰된 interaction처럼 보인다.

3. Hub protein은 원래 유명한 단백질일 가능성이 높다

Network analysis에서 가장 자주 등장하는 개념이 hub protein이다.

Hub는 연결선이 매우 많은 단백질이다.

대표적으로:

  • TP53
  • AKT1
  • MYC
  • EGFR
  • MAPK1

같은 단백질이 자주 등장한다.

연구자는 흔히:

"Hub니까 핵심 조절자다."

라고 생각한다.

하지만 현실은 조금 다르다.

이 단백질들은 biology에서 중요한 것도 맞지만,

동시에 수십 년 동안 엄청나게 많이 연구된 단백질이기도 하다.

즉 interaction 정보 자체가 압도적으로 많다.

결과적으로 hub는 biology뿐 아니라 연구량(research bias)의 반영일 수도 있다.

4. 잘 연구된 pathway가 항상 네트워크 중심에 등장한다

Network database는 인간이 축적한 지식 기반이다.

따라서:

  • Cancer signaling
  • Inflammation
  • Cell cycle
  • MAPK pathway

같은 분야는 annotation이 풍부하다.

반면:

  • 신규 단백질
  • 저연구 분야
  • 조직 특이적 단백질

은 interaction 정보가 부족하다.

결국 network analysis는 이미 잘 알려진 biology를 반복적으로 보여주는 경향이 있다.

새로운 biology를 발견하기보다 기존 biology를 재확인하는 경우가 많다.

5. Differential protein 자체가 이미 편향되어 있다

Network 분석은 원본 데이터에서 출발하지 않는다.

이미 여러 필터를 통과한 protein list를 사용한다.

그 이전 단계에서는:

  • Missing value 처리
  • Protein inference
  • Normalization
  • Fold change cutoff
  • FDR correction

이 수행된다.

즉 network는 raw biology가 아니라

"surviving proteins"

위에서 만들어진다.

따라서 network 구조 자체도 preprocessing 영향을 받는다.

6. Connectivity는 causality가 아니다

가장 흔한 해석 오류다.

Protein A가 네트워크 중앙에 있다고 하자.

많은 연구자는:

Protein A → Disease

관계를 상상한다.

하지만 network centrality는 단순히 연결성이 높다는 뜻이다.

원인이라는 뜻은 아니다.

실제로는:

Disease → Protein A 변화

일 수도 있고,

공통 upstream factor 때문에 함께 움직이는 것일 수도 있다.

즉 connectivity는 causality를 증명하지 않는다.

7. Correlation network의 함정

WGCNA 같은 correlation 기반 네트워크도 마찬가지다.

두 단백질이 함께 증가하면 edge가 생긴다.

하지만 함께 움직인다고 해서 직접 상호작용하는 것은 아니다.

예를 들어:

Inflammation 발생

Protein A 증가

Protein B 증가

라고 하자.

그러면 A와 B는 높은 상관관계를 가진다.

하지만 서로 아무 관계가 없을 수도 있다.

즉 correlation edge는 causation edge가 아니다.

8. Network는 항상 패턴을 만들어낸다

인간의 뇌는 패턴을 좋아한다.

특히 연결된 구조를 보면 의미를 찾고 싶어한다.

문제는 network 알고리즘도 비슷하다.

충분한 수의 protein을 넣으면 거의 항상 cluster가 생긴다.

Hub도 생긴다.

Module도 생긴다.

즉 network는 본질적으로 구조를 만들어내는 도구다.

그 구조가 실제 biology인지 여부는 별개의 문제다.

9. Edge 수가 많을수록 신뢰도가 높아지는 것은 아니다

Network 그림을 보면 연결선이 많을수록 설득력이 커 보인다.

하지만 실제로는 반대일 수도 있다.

STRING score threshold를 낮추면:

  • edge 증가
  • cluster 증가
  • hub 강화

가 나타난다.

즉 네트워크 복잡성은 parameter 설정에 따라 크게 달라진다.

그리고 연구자는 종종 그 결과를 biological discovery로 해석한다.

10. Module 발견도 과해석될 수 있다

Network clustering을 수행하면 module이 나온다.

예를 들어:

  • Metabolism module
  • Immune module
  • Cell cycle module

같은 결과다.

하지만 module은 algorithm이 찾은 구조다.

실제 세포 안에 그런 경계가 존재한다는 뜻은 아니다.

특히 clustering algorithm을 바꾸면 module 구조 자체가 달라질 수 있다.

즉 module도 biological fact라기보다 analytical abstraction에 가깝다.

11. 실제 재현성은 생각보다 낮다

흥미로운 점은 network topology가 dataset마다 상당히 달라질 수 있다는 것이다.

Sample 수가 달라지고,

Normalization이 달라지고,

Cutoff가 달라지면

hub와 module이 바뀐다.

즉 network는 생각보다 불안정하다.

그런데 최종 그림은 매우 안정적으로 보인다.

이 시각적 안정감이 과해석을 부른다.

12. 진짜 causality는 네트워크 밖에서 검증된다

실제 biology에서 중요한 질문은:

"누가 누구를 조절하는가"

이다.

하지만 network analysis는 보통:

"누가 누구와 연결되는가"

만 보여준다.

이 둘은 전혀 다른 문제다.

결국 causality를 확인하려면:

  • Knockdown
  • Knockout
  • CRISPR perturbation
  • Drug inhibition
  • Time-course experiment

같은 intervention 연구가 필요하다.

네트워크만으로는 충분하지 않다.

13. 실무적으로 네트워크를 해석하는 방법

Network analysis는 매우 유용하다.

문제는 결과를 증거가 아니라 가설 생성 도구로 봐야 한다는 점이다.

실무적으로는 다음을 추천한다.

Hub protein을 자동으로 driver로 해석하지 말 것

Hub는 연구량과 annotation bias의 영향을 크게 받는다.

Edge의 근거를 확인할 것

실험 기반인지, prediction인지, literature 기반인지 구분해야 한다.

Network 구조보다 원본 데이터 먼저 보기

Fold change와 abundance 패턴이 우선이다.

Correlation과 causation을 구분할 것

함께 움직인다고 직접 조절하는 것은 아니다.

Functional validation 수행

Network에서 발견된 가설은 반드시 실험적으로 검증해야 한다.

결론

Network analysis는 proteomics 데이터를 이해하기 쉽게 만들어주는 강력한 도구다. 하지만 동시에 가장 설득력 있는 착시를 만들어내는 도구이기도 하다.

네트워크의 연결선은 현재 실험에서 관찰된 상호작용이 아닐 수 있으며, hub protein은 실제 핵심 조절자라기보다 연구가 많이 된 단백질일 수도 있다. 또한 correlation edge는 causality를 의미하지 않고, module 구조 역시 알고리즘이 만든 추상화일 가능성이 있다.

결국 network analysis는 biological truth를 보여주는 창이라기보다, biological hypothesis를 생성하는 지도에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 의미 있어 보였던 복잡한 네트워크 그림이 다르게 보이기 시작한다. 왜 유명한 단백질이 항상 중심에 등장하는지, 왜 서로 다른 연구에서 hub가 달라지는지, 왜 network가 예쁜 그림일수록 실제 검증은 어려운지에 대한 답이 바로 네트워크 구조 자체 안에 숨어 있기 때문이다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함