티스토리 뷰

728x90

Differential expression 결과를 그대로 믿으면 안 되는 이유
Differential expression 결과를 그대로 믿으면 안 되는 이유

— 통계적으로 유의한 결과가 생물학적으로 틀릴 수 있는 구조

논문을 읽다 보면 이런 문장을 자주 보게 된다.

“XXX protein이 유의하게 증가하였다 (p < 0.05)”

그리고 자연스럽게 이어진다.

“따라서 이 단백질은 해당 질환에서 중요한 역할을 한다”

이 흐름은 너무 자연스럽다.
그래서 대부분의 사람은 의심하지 않는다.

하지만 proteomics를 실제로 다뤄본 사람이라면
이 문장을 조금 다르게 읽는다.

“이 결과, 정말 그대로 믿어도 될까?”

1. differential expression은 ‘사실’이 아니라 ‘결과’다

Differential expression(DE)은
실제 biological 변화 자체가 아니다.

이건 다음 과정을 거쳐 만들어진다.

  • 샘플 준비
  • 단백질 추출
  • digestion
  • LC-MS 측정
  • 데이터 처리
  • 통계 분석

그리고 마지막에
하나의 숫자가 나온다.

  • fold change
  • p-value

즉,

DE 결과는 실험 전체의 산물이다

이 말은 곧

👉 어느 한 단계만 흔들려도 결과는 바뀔 수 있다는 뜻이다

2. 가장 큰 착각: p-value = 진짜 변화

많은 연구자가 이렇게 생각한다.

  • p-value < 0.05 → 진짜다
  • p-value > 0.05 → 아니다

하지만 p-value는
이걸 의미하지 않는다.

p-value는 단지

👉 “이 데이터가 우연히 나올 확률”

이다.

즉,

  • 낮은 p-value = 재현성 높음 (같은 조건에서)
  • 높은 p-value = 불확실

이지,

👉 “생물학적 진실 여부”는 아니다

3. sample size와 variance가 결과를 만든다

같은 fold change라도
sample variance에 따라 결과는 완전히 달라진다.

실제 상황

  • 그룹 A vs B
  • 평균 차이 동일

하지만

  • variance 낮음 → p-value 유의
  • variance 높음 → p-value 비유의

즉,

DE 결과는 변화의 크기보다 데이터 구조에 더 민감하다

4. 실제 사례 ①: replicate 수에 따른 결과 변화

한 proteomics 연구에서

  • n=3 → 120개 protein 유의
  • n=6 → 40개 protein만 유지

즉,

초기 결과의 70% 이상이 사라졌다.

왜 이런 일이 생길까?

👉 small sample에서 우연한 패턴이
“유의한 변화”로 보였기 때문이다

5. multiple testing: 유의미해 보이는 착각

proteomics에서는 수천 개 단백질을 동시에 분석한다.

이 경우

  • p < 0.05 기준 적용 시
  • 5%는 무조건 false positive

예:

  • 5000 proteins 분석
    → 약 250개는 우연히 유의

그래서 FDR correction을 사용한다.

하지만 여기서 또 문제가 생긴다.

6. FDR도 완벽하지 않다

FDR은 false positive를 줄이지만

  • false negative 증가
  • subtle change 제거

즉,

👉 진짜 biological signal이 사라질 수도 있다

7. fold change의 함정

fold change는 직관적이다.

  • 2배 증가 → 중요해 보임

하지만 실제로는

  • low abundance에서 noise 영향 큼
  • ratio inflation 발생

실제 사례 ②

  • 실제 변화: 미미
  • 측정값: 5배 증가

→ low signal 영역에서 noise 증폭

즉,

큰 fold change가 항상 큰 변화는 아니다

8. missing value가 만드는 가짜 차이

proteomics 데이터에서 missing value는 흔하다.

문제는 이걸 처리하는 방식이다.

흔한 상황

  • group A: detection
  • group B: missing

→ fold change 무한대

하지만 실제로는

👉 detection limit 문제일 가능성 높음

9. normalization이 biological signal을 지운다

normalization은 필수지만
항상 안전한 것은 아니다.

실제 사례 ③

  • 전체 protein abundance 증가
  • normalization 후 → 차이 사라짐

즉,

👉 진짜 biological 변화가 제거됨

10. batch effect: 숨겨진 변수

다른 날, 다른 조건에서 측정하면

  • instrument 상태
  • 환경 변화

이 결과에 영향을 준다.

실제 사례 ④

  • control vs disease
  • 사실상 batch 차이

하지만 분석에서는

👉 disease effect로 해석

11. peptide-level inconsistency

하나의 단백질은 여러 peptide로 구성된다.

문제는

  • peptide마다 변화 방향 다름

상황

  • peptide A ↑
  • peptide B ↓

이 경우

👉 protein level DE는 불안정

12. biological relevance vs statistical significance

가장 중요한 문제다.

예시

  • p < 0.001
  • fold change = 1.1

→ 통계적으로 유의

하지만

👉 biological impact 거의 없음

반대로

  • p > 0.05
  • fold change = 3

→ 통계적으로 비유의

하지만

👉 실제 biological 의미 있음

13. 실제 사례 ⑤: pathway 해석 오류

한 연구에서

  • DE protein 기반 pathway 분석

결과:

→ 특정 pathway 활성화

하지만 후속 연구에서

  • 일부 protein만 artifact
  • pathway 전체 해석 오류

14. 가장 위험한 순간

데이터가 “너무 잘 맞을 때”다.

  • volcano plot 깔끔
  • pathway 명확
  • 스토리 완성

이 순간 연구자는 확신한다.

“이건 맞다”

하지만 실제로는

👉 분석 pipeline이 만든 결과일 수도 있다

15. 왜 이런 일이 반복되는가

이유는 간단하다.

우리는

👉 데이터를 “발견”한다고 생각하지만
실제로는 “구성”하고 있기 때문이다

16. 실무에서의 대응 전략

1) replicate 늘리기

small n은 가장 큰 위험 요소

2) peptide-level 확인

단일 peptide 의존 금지

3) orthogonal validation

  • Western blot
  • targeted MS

4) batch control

randomization 필수

5) 해석 보수적으로

확신보다 가능성 중심

17. 핵심 정리

Differential expression은

  • 진실이 아니다
  • 해석의 출발점이다

이걸 결과로 받아들이는 순간
연구는 왜곡되기 시작한다.

결론

Differential expression 결과는
가장 매력적인 데이터다.

숫자도 명확하고
통계도 깔끔하다.

그래서 더 위험하다.

왜냐하면

👉 “그럴듯하게 틀릴 수 있기 때문”이다

마지막 질문

모든 DE 결과 앞에서
반드시 물어야 한다.

“이 차이는 biological 변화인가,
아니면 데이터가 만든 구조인가?”

이 질문 하나가
연구의 방향을 완전히 바꾼다.

728x90