티스토리 뷰

728x90

왜 논문에서는 분명히 보였던 바이오마커와 메커니즘이 다른 연구에서는 사라질까

Proteomics 분야에서 오랫동안 일하다 보면 한 가지 이상한 경험을 반복하게 된다.

논문에서는 매우 강력해 보였던 결과가 있다.

p-value는 충분히 낮다.

Fold change도 크다.

Volcano plot도 깔끔하다.

Pathway enrichment도 설득력 있다.

논문 결론은 명확하다.

특정 단백질은 질병의 핵심 바이오마커이며, 특정 pathway는 질병 발생의 중심 메커니즘이라고 주장한다.

그런데 몇 달 뒤 다른 연구실에서 비슷한 실험을 수행한다.

결과는 예상과 다르다.

중요하다고 했던 단백질은 보이지 않는다.

Pathway도 재현되지 않는다.

Hub protein도 달라진다.

심지어 같은 연구실에서 같은 실험을 반복해도 결과가 달라지는 경우가 있다.

Proteomics를 처음 접하는 사람들은 이를 기술적 문제라고 생각한다.

장비가 달랐기 때문일까?

분석자가 달랐기 때문일까?

시약이 달랐기 때문일까?

물론 그런 경우도 있다.

하지만 실제로 재현되지 않는 연구들을 자세히 들여다보면 반복적으로 등장하는 공통 패턴이 존재한다.

흥미로운 점은 대부분의 문제는 LC-MS/MS 장비 자체가 아니라 연구 설계와 데이터 해석 과정에서 발생한다는 것이다.

1. 발견(Discovery)과 검증(Validation)을 구분하지 않는다

재현 실패의 가장 흔한 원인이다.

Proteomics는 본질적으로 탐색(discovery) 기술이다.

수천~수만 개의 단백질을 동시에 측정한다.

이 과정에서 우연히 유의한 결과가 나타날 수 있다.

예를 들어:

8,000개 protein

FDR 5%

라면

이론적으로 수백 개의 false positive가 발생할 수 있다.

문제는 많은 연구가 discovery 단계에서 얻은 결과를 곧바로 biological truth처럼 해석한다는 것이다.

Validation cohort 없이 결론을 내리는 순간 재현성 위험이 커진다.

2. Sample Size가 너무 작다

Proteomics 논문을 보면 종종 이런 연구를 발견할 수 있다.

질병군 n=5

대조군 n=5

혹은

n=8 vs n=8

이 정도 규모다.

Proteomics는 feature 수가 매우 많다.

수천 개 단백질을 비교하는데 샘플은 10명 내외인 경우가 많다.

이런 상황에서는 우연한 차이가 매우 쉽게 significance를 얻는다.

첫 번째 연구에서는 강하게 보였던 단백질이 두 번째 연구에서는 사라지는 이유다.

3. Cohort 특성을 충분히 통제하지 않는다

Proteomics는 생각보다 민감하다.

단순히 질병 유무만 반영하는 것이 아니다.

다음 요소들도 proteome에 영향을 준다.

  • 나이
  • 성별
  • BMI
  • 약물 복용
  • 식이 습관
  • 수면 상태
  • 흡연
  • 운동

즉 두 연구가 같은 질병을 다뤄도 cohort 특성이 다르면 결과가 달라질 수 있다.

많은 재현 실패는 사실 질병 차이가 아니라 cohort 차이 때문이다.

4. Batch Effect를 과소평가한다

Proteomics에서 batch effect는 생각보다 강력하다.

예를 들어:

1주차 분석

2주차 분석

다른 컬럼 사용

다른 시약 lot 사용

이런 변화만으로도 상당한 차이가 발생할 수 있다.

특히 대규모 연구에서 batch correction이 적절하지 않으면 biological signal보다 batch signal이 더 커질 수 있다.

5. Differential Expression 결과를 과신한다

Volcano plot은 매우 설득력 있다.

하지만 Volcano plot은 단순히 통계 결과다.

생물학적 중요성을 보장하지 않는다.

실제로 많은 연구가:

상위 10개 upregulated protein

문헌 검색

스토리 생성

이라는 방식으로 진행된다.

이 과정에서 우연한 결과가 핵심 메커니즘으로 해석될 수 있다.

6. Functional Annotation에 지나치게 의존한다

재현되지 않는 연구의 상당수는 annotation 중심 해석을 사용한다.

예를 들어:

20개 단백질 변화

Pathway enrichment

Inflammation activation 결론

하지만 annotation은 database 기반이다.

실제 biology를 직접 측정한 것이 아니다.

따라서 다른 데이터베이스를 사용하거나 threshold를 바꾸면 결과가 달라질 수 있다.

7. Network Analysis가 과해석된다

Network 그림은 매우 인상적이다.

수십 개 단백질이 연결되어 있다.

Hub protein도 존재한다.

연구자는 쉽게 생각한다.

"이 단백질이 핵심 조절자다."

하지만 network는 대부분:

  • 기존 문헌
  • interaction database
  • prediction model

위에서 만들어진다.

즉 실제 실험에서 검증된 메커니즘이 아니다.

8. Single Cohort에 최적화된 결과

많은 연구가 무의식적으로 cohort-specific signal을 찾는다.

예를 들어 특정 병원 환자군에서만 나타나는 특징이 있다.

Proteomics는 이를 잘 잡아낸다.

문제는 그것이 일반적인 biology인지 해당 cohort의 특수성인지 구분하지 않는다는 점이다.

결국 외부 cohort에서는 재현되지 않는다.

9. Missing Value 처리 방식이 결과를 만든다

Proteomics 데이터에서 Missing value는 흔하다.

그리고 처리 방법도 다양하다.

  • Mean imputation
  • Median imputation
  • Random forest
  • KNN
  • Left-censored imputation

어떤 방법을 선택하느냐에 따라 결과가 달라질 수 있다.

특히 low abundance protein에서는 영향이 매우 크다.

재현되지 않는 biomarker 상당수는 imputation 의존적 결과인 경우가 있다.

10. Normalization 전략이 결과를 바꾼다

Normalization은 필수 과정이다.

하지만 동시에 위험한 과정이기도 하다.

예를 들어:

  • Total ion normalization
  • Median normalization
  • Quantile normalization
  • VSN

각 방법은 서로 다른 가정을 가진다.

특정 normalization에서는 유의했던 단백질이 다른 normalization에서는 사라질 수 있다.

11. DDA의 확률적 특성을 무시한다

특히 DDA(Data-Dependent Acquisition) 연구에서 흔한 문제다.

DDA는 본질적으로 stochastic sampling을 수행한다.

즉 같은 샘플이라도:

Run 1

Run 2

에서 선택되는 precursor가 다를 수 있다.

따라서 일부 단백질은 검출되었다가 사라진다.

초기 연구에서는 중요해 보였지만 후속 연구에서는 보이지 않는 이유 중 하나다.

12. Mechanism을 너무 빨리 주장한다

재현되지 않는 연구의 공통 특징 중 하나는 mechanism 서술이 과도하다는 점이다.

Proteomics 결과는 본질적으로 observational data다.

하지만 논문은 종종:

"Protein X가 질병을 유도한다."

"Pathway Y가 병인을 조절한다."

라고 결론 내린다.

실제로는:

  • association
  • correlation
  • enrichment

만 관찰한 경우가 많다.

13. Validation Experiment가 부족하다

재현성이 높은 연구는 보통 추가 검증이 있다.

예를 들어:

  • Western blot
  • PRM/SRM
  • Functional assay
  • Knockdown
  • CRISPR validation

등이다.

반대로 재현되지 않는 연구는 discovery proteomics 결과만으로 결론을 내리는 경우가 많다.

14. Publication Bias의 영향

과학계는 흥미로운 결과를 선호한다.

"변화가 없었다."

라는 논문은 잘 출판되지 않는다.

결과적으로:

강한 효과

흥미로운 메커니즘

새로운 바이오마커

위주로 출판된다.

반면 실패한 재현 연구는 세상에 나오지 못한다.

이로 인해 문헌 전체가 실제보다 더 확신에 차 보인다.

15. 재현성이 높은 연구의 특징

흥미롭게도 재현성이 높은 연구들은 화려하지 않은 경우가 많다.

공통적으로:

  • 충분한 sample size
  • 독립 validation cohort
  • 엄격한 QC
  • Batch correction
  • 보수적인 해석
  • 기능 검증 포함

이라는 특징을 가진다.

그리고 논문 결론도 상대적으로 신중하다.

결론

재현되지 않는 Proteomics 연구들은 겉으로는 서로 달라 보이지만 놀라울 정도로 비슷한 패턴을 공유한다. 작은 샘플 수, discovery와 validation의 혼동, cohort 특성 미통제, batch effect, 과도한 annotation 의존, network 과해석, missing value 처리 문제, normalization 선택 효과, 그리고 관찰 결과를 곧바로 메커니즘으로 연결하는 해석 방식이 반복적으로 등장한다.

특히 위험한 점은 이러한 연구들이 처음 읽을 때는 매우 설득력 있어 보인다는 것이다. Volcano plot은 깔끔하고, pathway enrichment는 일관되며, network는 아름답고, 메커니즘은 논리적이다. 그러나 그 많은 단계 중 어느 하나라도 불안정하다면 최종 결론 역시 불안정해질 수 있다.

결국 재현성은 통계적으로 유의한 단백질을 얼마나 많이 발견했는지가 아니라, 다른 연구자와 다른 코호트, 다른 시점에서도 같은 결론에 도달할 수 있는지에 의해 결정된다.

Proteomics를 오래 할수록 가장 인상적인 결과보다 가장 재현성 높은 결과를 더 높게 평가하게 된다. 왜냐하면 과학에서 진짜 발견은 처음 보였던 신호가 아니라, 여러 번 반복해도 사라지지 않는 신호이기 때문이다.

재현되지 않는 Proteomics 연구의 공통된 패턴
재현되지 않는 Proteomics 연구의 공통된 패턴

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함