티스토리 뷰

728x90

우리가 보고 있는 상호작용은 실제 생물학일까, 아니면 데이터베이스가 만들어낸 환상일까

Proteomics 논문을 읽다 보면 거의 빠지지 않고 등장하는 그림이 있다.

Differentially expressed protein을 선별한 뒤, 그 단백질들을 interaction database에 넣고 네트워크를 만든 그림이다.

수많은 단백질들이 서로 연결되어 있고, 중심에는 몇 개의 hub protein이 자리 잡고 있다. 연구자는 그 네트워크를 보며 특정 단백질이 질병의 핵심 조절자일 가능성을 이야기하고, 특정 pathway가 중요한 역할을 할 것이라고 해석한다.

실제로 이런 분석은 이제 거의 표준 절차가 되었다.

많은 연구에서 다음과 같은 흐름을 따른다.

---------------------------------------------------------

Differential expression 분석

Pathway enrichment

Protein-protein interaction(PPI) network

Hub protein 선정

Biomarker 또는 therapeutic target 제안

----------------------------------------------------------

겉으로 보면 매우 논리적인 흐름처럼 보인다.

하지만 여기에는 한 가지 중요한 질문이 숨어 있다.

"도대체 이 interaction은 얼마나 믿을 수 있는가?"

놀랍게도 대부분의 연구자는 이 질문을 거의 하지 않는다.

Database에 연결선이 그어져 있으면 실제로 상호작용한다고 가정한다. STRING이나 Cytoscape에서 연결된 두 단백질을 보면 마치 세포 안에서 직접 만나고 있는 것처럼 느낀다.

그러나 실제 Protein interaction 데이터의 세계는 생각보다 훨씬 복잡하고 불완전하다.

그리고 이 사실을 이해하기 시작하면 이전에는 너무 명확해 보였던 네트워크 그림이 전혀 다르게 보이기 시작한다.

1. Protein interaction은 생각보다 측정하기 어렵다

많은 사람들이 interaction 데이터가 실험적으로 명확하게 확인된 사실이라고 생각한다.

하지만 실제로 단백질 상호작용을 검증하는 것은 매우 어렵다.

세포 안에서는 수만 종의 단백질이 동시에 존재한다.

이 단백질들은:

  • 시간에 따라 변하고
  • 조직에 따라 달라지고
  • 세포 상태에 따라 바뀌고
  • 환경 변화에 따라 재배치된다

즉 interaction 자체가 고정된 것이 아니다.

어떤 단백질은 특정 조건에서만 결합한다.

어떤 interaction은 수 초만 지속된다.

어떤 interaction은 특정 세포 소기관 안에서만 발생한다.

따라서 "이 두 단백질이 상호작용한다"는 문장은 생각보다 훨씬 복잡한 의미를 가진다.

2. Interaction 데이터베이스는 하나의 실험 결과가 아니다

많은 사람들이 STRING 네트워크를 보면 이렇게 생각한다.

"실험적으로 확인된 interaction이구나."

하지만 실제 STRING 같은 데이터베이스는 여러 종류의 정보를 혼합한다.

대표적으로:

  • Experimental evidence
  • Literature mining
  • Co-expression
  • Genomic context
  • Predicted interaction
  • Curated knowledge

등이 함께 포함된다.

즉 연결선 하나가 반드시 물리적 결합을 의미하지는 않는다.

경우에 따라서는 단순히 두 유전자가 같은 논문에 자주 등장했기 때문에 연결된 경우도 있다.

3. Co-expression은 interaction이 아니다

가장 흔한 오해 중 하나다.

두 단백질이 항상 함께 증가한다고 가정해 보자.

그러면 co-expression analysis에서는 높은 상관관계가 나타난다.

하지만 이것이 직접 interaction을 의미하지는 않는다.

예를 들어:

염증 발생

Protein A 증가

Protein B 증가

라고 하자.

A와 B는 매우 강한 correlation을 보인다.

그러나 실제로는 서로 만나지 않을 수도 있다.

단지 같은 upstream regulator의 영향을 받을 뿐이다.

그럼에도 database에서는 interaction evidence로 기록될 수 있다.

4. Literature bias가 생각보다 크다

Protein interaction 데이터의 가장 큰 문제 중 하나는 연구 편향이다.

일부 단백질은 수십 년 동안 집중적으로 연구되었다.

대표적으로:

TP53 관련 네트워크

AKT1 관련 네트워크

EGFR 관련 네트워크

는 엄청난 양의 interaction 정보가 존재한다.

반면 새롭게 발견된 단백질은 거의 정보가 없다.

즉 interaction 수가 많다는 것이 반드시 biology를 의미하지 않는다.

연구가 많이 되었기 때문일 수도 있다.

5. False positive interaction은 생각보다 흔하다

Interaction 검출 기술들은 모두 한계를 가진다.

예를 들어 Yeast Two-Hybrid(Y2H)는 대규모 screening이 가능하지만 false positive가 많다.

반대로 Co-immunoprecipitation(Co-IP)은 더 신뢰도가 높지만 indirect interaction까지 함께 잡힐 수 있다.

Affinity purification-MS(AP-MS)도 마찬가지다.

복합체 전체를 끌고 오기 때문에 실제 직접 결합인지 구분하기 어렵다.

즉 interaction 검출 기술 자체가 완벽하지 않다.

6. Direct interaction과 indirect interaction은 다르다

많은 네트워크 그림은 이를 구분하지 않는다.

예를 들어:

Protein A

Protein B

Protein C

구조가 있다고 하자.

실험에서는 A와 C가 같은 complex에서 검출될 수 있다.

그러면 interaction으로 기록될 수 있다.

하지만 실제로 A와 C는 직접 만나지 않을 수도 있다.

즉 네트워크의 연결선이 반드시 물리적 접촉을 의미하지 않는다.

7. 세포 종류가 다르면 interaction도 달라진다

Protein interaction은 context dependent하다.

예를 들어:

  • 간세포
  • 신경세포
  • 면역세포

에서는 interaction landscape 자체가 다르다.

그런데 database는 다양한 조건의 정보를 합쳐 놓는다.

결과적으로 현재 연구 중인 세포에서 실제 존재하지 않는 interaction도 네트워크에 나타날 수 있다.

8. 시간 정보가 사라진다

실제 세포는 매우 동적이다.

Signal transduction을 생각해 보자.

Ligand 결합

Receptor activation

Adaptor recruitment

Kinase activation

Transcription factor 이동

과정이 수 초에서 수 분 사이에 일어난다.

하지만 interaction database는 이런 시간 정보를 대부분 담고 있지 않다.

결과적으로 모든 interaction이 동시에 존재하는 것처럼 보인다.

9. Network가 커질수록 신뢰성은 오히려 떨어질 수 있다

많은 연구자는 복잡한 네트워크를 좋아한다.

연결선이 많고 cluster가 많을수록 biology가 풍부해 보인다.

하지만 실제로는:

Threshold를 낮출수록

Edge 증가

False positive 증가

Network 복잡성 증가

가 발생한다.

즉 화려한 네트워크가 반드시 신뢰도가 높은 것은 아니다.

오히려 noise가 많을 수도 있다.

10. Hub protein은 종종 데이터베이스의 산물이다

Network 분석에서 항상 등장하는 hub protein들이 있다.

대표적으로:

  • TP53
  • AKT1
  • MYC
  • EGFR
  • MAPK1

같은 단백질이다.

왜 항상 등장할까?

실제로 중요한 것도 맞다.

하지만 동시에 interaction 정보가 압도적으로 많기 때문이다.

즉 hub는 biology와 annotation bias가 섞인 결과일 수 있다.

11. Proteomics에서 interaction을 증명한 것은 아니다

Proteomics 실험 결과에 differential protein이 나타났다고 하자.

그리고 STRING network를 그렸더니 서로 연결되었다.

많은 연구자가 여기서 interaction이 존재한다고 생각한다.

하지만 실제 proteomics는 interaction을 측정하지 않았다.

단지 abundance를 측정했을 뿐이다.

Interaction은 database가 추가한 정보다.

즉 abundance change와 interaction evidence는 서로 다른 층위의 정보다.

12. 실제 검증은 훨씬 어렵다

진짜 interaction을 확인하려면 추가 실험이 필요하다.

대표적으로:

  • Co-IP
  • AP-MS
  • Cross-linking MS
  • Proximity labeling
  • FRET
  • BiFC

같은 방법들이다.

즉 database network는 hypothesis 생성 도구일 뿐, interaction 자체를 증명하지 않는다.

13. 실무적으로 interaction 데이터를 보는 방법

Interaction 데이터는 매우 유용하다.

하지만 다음 원칙을 기억하는 것이 중요하다.

Edge의 출처 확인

실험 기반인지 prediction인지 구분한다.

Confidence score 확인

낮은 score interaction은 조심해서 해석한다.

Direct vs indirect 구분

같은 complex 안에 있다고 직접 결합하는 것은 아니다.

Cell type context 고려

현재 실험 조건과 일치하는 evidence인지 확인한다.

Independent validation 수행

핵심 interaction은 반드시 추가 실험으로 검증한다.

결론

Protein interaction 데이터는 현대 proteomics 해석에서 매우 강력한 도구다. 하지만 그 연결선 하나하나는 우리가 생각하는 것만큼 절대적인 사실이 아니다.

많은 interaction은 다양한 실험, 예측 모델, 문헌 정보, 공발현 데이터가 결합된 결과이며, 직접적인 물리적 결합을 의미하지 않을 수도 있다. 또한 연구 편향, 세포 유형 차이, 시간 의존성, 기술적 한계 때문에 실제 세포 안에서의 상호작용과 데이터베이스의 네트워크는 상당한 차이를 가질 수 있다.

결국 PPI 네트워크는 세포 안에서 실제 일어나는 생물학을 그대로 보여주는 지도가 아니라, 현재까지 축적된 지식을 바탕으로 만들어진 가설 공간(hypothesis space)에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 확실해 보였던 hub protein과 network cluster가 다르게 보이기 시작한다. 왜 항상 같은 단백질이 중심에 등장하는지, 왜 네트워크가 화려할수록 검증은 더 어려워지는지, 왜 실제 실험에서는 예상한 interaction이 재현되지 않는지에 대한 답이 바로 interaction 데이터의 구조적 한계 안에 숨어 있기 때문이다.

 

Protein interaction 데이터의 신뢰성 문제
Protein interaction 데이터의 신뢰성 문제

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함