Differential expression 결과를 그대로 믿으면 안 되는 이유

본문 바로가기 메뉴 바로가기

티스토리 뷰

제약산업

Differential expression 결과를 그대로 믿으면 안 되는 이유

pharma_info 2026. 4. 24. 20:10

728x90

Differential expression 결과를 그대로 믿으면 안 되는 이유

— 통계적으로 유의한 결과가 생물학적으로 틀릴 수 있는 구조

논문을 읽다 보면 이런 문장을 자주 보게 된다.

“XXX protein이 유의하게 증가하였다 (p < 0.05)”

그리고 자연스럽게 이어진다.

“따라서 이 단백질은 해당 질환에서 중요한 역할을 한다”

이 흐름은 너무 자연스럽다.
그래서 대부분의 사람은 의심하지 않는다.

하지만 proteomics를 실제로 다뤄본 사람이라면
이 문장을 조금 다르게 읽는다.

“이 결과, 정말 그대로 믿어도 될까?”

1. differential expression은 ‘사실’이 아니라 ‘결과’다

Differential expression(DE)은
실제 biological 변화 자체가 아니다.

이건 다음 과정을 거쳐 만들어진다.

샘플 준비
단백질 추출
digestion
LC-MS 측정
데이터 처리
통계 분석

그리고 마지막에
하나의 숫자가 나온다.

fold change
p-value

즉,

DE 결과는 실험 전체의 산물이다

이 말은 곧

👉 어느 한 단계만 흔들려도 결과는 바뀔 수 있다는 뜻이다

2. 가장 큰 착각: p-value = 진짜 변화

많은 연구자가 이렇게 생각한다.

p-value < 0.05 → 진짜다
p-value > 0.05 → 아니다

하지만 p-value는
이걸 의미하지 않는다.

p-value는 단지

👉 “이 데이터가 우연히 나올 확률”

이다.

즉,

낮은 p-value = 재현성 높음 (같은 조건에서)
높은 p-value = 불확실

이지,

👉 “생물학적 진실 여부”는 아니다

3. sample size와 variance가 결과를 만든다

같은 fold change라도
sample variance에 따라 결과는 완전히 달라진다.

실제 상황

그룹 A vs B
평균 차이 동일

하지만

variance 낮음 → p-value 유의
variance 높음 → p-value 비유의

즉,

DE 결과는 변화의 크기보다 데이터 구조에 더 민감하다

4. 실제 사례 ①: replicate 수에 따른 결과 변화

한 proteomics 연구에서

n=3 → 120개 protein 유의
n=6 → 40개 protein만 유지

즉,

초기 결과의 70% 이상이 사라졌다.

왜 이런 일이 생길까?

👉 small sample에서 우연한 패턴이
“유의한 변화”로 보였기 때문이다

5. multiple testing: 유의미해 보이는 착각

proteomics에서는 수천 개 단백질을 동시에 분석한다.

이 경우

p < 0.05 기준 적용 시
5%는 무조건 false positive

예:

5000 proteins 분석
→ 약 250개는 우연히 유의

그래서 FDR correction을 사용한다.

하지만 여기서 또 문제가 생긴다.

6. FDR도 완벽하지 않다

FDR은 false positive를 줄이지만

false negative 증가
subtle change 제거

즉,

👉 진짜 biological signal이 사라질 수도 있다

7. fold change의 함정

fold change는 직관적이다.

2배 증가 → 중요해 보임

하지만 실제로는

low abundance에서 noise 영향 큼
ratio inflation 발생

실제 사례 ②

실제 변화: 미미
측정값: 5배 증가

→ low signal 영역에서 noise 증폭

즉,

큰 fold change가 항상 큰 변화는 아니다

8. missing value가 만드는 가짜 차이

proteomics 데이터에서 missing value는 흔하다.

문제는 이걸 처리하는 방식이다.

흔한 상황

group A: detection
group B: missing

→ fold change 무한대

하지만 실제로는

👉 detection limit 문제일 가능성 높음

9. normalization이 biological signal을 지운다

normalization은 필수지만
항상 안전한 것은 아니다.

실제 사례 ③

전체 protein abundance 증가
normalization 후 → 차이 사라짐

즉,

👉 진짜 biological 변화가 제거됨

10. batch effect: 숨겨진 변수

다른 날, 다른 조건에서 측정하면

instrument 상태
환경 변화

이 결과에 영향을 준다.

실제 사례 ④

control vs disease
사실상 batch 차이

하지만 분석에서는

👉 disease effect로 해석

11. peptide-level inconsistency

하나의 단백질은 여러 peptide로 구성된다.

문제는

peptide마다 변화 방향 다름

상황

peptide A ↑
peptide B ↓

이 경우

👉 protein level DE는 불안정

12. biological relevance vs statistical significance

가장 중요한 문제다.

예시

p < 0.001
fold change = 1.1

→ 통계적으로 유의

하지만

👉 biological impact 거의 없음

반대로

p > 0.05
fold change = 3

→ 통계적으로 비유의

하지만

👉 실제 biological 의미 있음

13. 실제 사례 ⑤: pathway 해석 오류

한 연구에서

DE protein 기반 pathway 분석

결과:

→ 특정 pathway 활성화

하지만 후속 연구에서

일부 protein만 artifact
pathway 전체 해석 오류

14. 가장 위험한 순간

데이터가 “너무 잘 맞을 때”다.

volcano plot 깔끔
pathway 명확
스토리 완성

이 순간 연구자는 확신한다.

“이건 맞다”

하지만 실제로는

👉 분석 pipeline이 만든 결과일 수도 있다

15. 왜 이런 일이 반복되는가

이유는 간단하다.

우리는

👉 데이터를 “발견”한다고 생각하지만
실제로는 “구성”하고 있기 때문이다

16. 실무에서의 대응 전략

1) replicate 늘리기

small n은 가장 큰 위험 요소

2) peptide-level 확인

단일 peptide 의존 금지

3) orthogonal validation

Western blot
targeted MS

4) batch control

randomization 필수

5) 해석 보수적으로

확신보다 가능성 중심

17. 핵심 정리

Differential expression은

진실이 아니다
해석의 출발점이다

이걸 결과로 받아들이는 순간
연구는 왜곡되기 시작한다.

결론

Differential expression 결과는
가장 매력적인 데이터다.

숫자도 명확하고
통계도 깔끔하다.

그래서 더 위험하다.

왜냐하면

👉 “그럴듯하게 틀릴 수 있기 때문”이다

마지막 질문

모든 DE 결과 앞에서
반드시 물어야 한다.

“이 차이는 biological 변화인가,
아니면 데이터가 만든 구조인가?”

이 질문 하나가
연구의 방향을 완전히 바꾼다.

728x90

'제약산업' 카테고리의 다른 글

Missing value가 만들어내는 착각 (0)	2026.04.28
Proteomics에서 “보이는 것 vs 존재하는 것” (0)	2026.04.27
통계적으로 유의하지만 biologically meaningless한 결과 (0)	2026.04.26
Volcano plot이 진실을 가리는 방식 (0)	2026.04.25
Protein abundance는 실제 농도를 반영할까 (0)	2026.04.23
Proteomics에서 가장 위험한 착각 (0)	2026.04.22
대사체 안정성 문제가 임상 연구에서 특히 중요한 이유 (0)	2026.04.21
내부 표준 선택이 metabolomics 정량 신뢰도에 미치는 영향 (0)	2026.04.20

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바