티스토리 뷰

— 통계적으로 유의한 결과가 생물학적으로 틀릴 수 있는 구조
논문을 읽다 보면 이런 문장을 자주 보게 된다.
“XXX protein이 유의하게 증가하였다 (p < 0.05)”
그리고 자연스럽게 이어진다.
“따라서 이 단백질은 해당 질환에서 중요한 역할을 한다”
이 흐름은 너무 자연스럽다.
그래서 대부분의 사람은 의심하지 않는다.
하지만 proteomics를 실제로 다뤄본 사람이라면
이 문장을 조금 다르게 읽는다.
“이 결과, 정말 그대로 믿어도 될까?”
1. differential expression은 ‘사실’이 아니라 ‘결과’다
Differential expression(DE)은
실제 biological 변화 자체가 아니다.
이건 다음 과정을 거쳐 만들어진다.
- 샘플 준비
- 단백질 추출
- digestion
- LC-MS 측정
- 데이터 처리
- 통계 분석
그리고 마지막에
하나의 숫자가 나온다.
- fold change
- p-value
즉,
DE 결과는 실험 전체의 산물이다
이 말은 곧
👉 어느 한 단계만 흔들려도 결과는 바뀔 수 있다는 뜻이다
2. 가장 큰 착각: p-value = 진짜 변화
많은 연구자가 이렇게 생각한다.
- p-value < 0.05 → 진짜다
- p-value > 0.05 → 아니다
하지만 p-value는
이걸 의미하지 않는다.
p-value는 단지
👉 “이 데이터가 우연히 나올 확률”
이다.
즉,
- 낮은 p-value = 재현성 높음 (같은 조건에서)
- 높은 p-value = 불확실
이지,
👉 “생물학적 진실 여부”는 아니다
3. sample size와 variance가 결과를 만든다
같은 fold change라도
sample variance에 따라 결과는 완전히 달라진다.
실제 상황
- 그룹 A vs B
- 평균 차이 동일
하지만
- variance 낮음 → p-value 유의
- variance 높음 → p-value 비유의
즉,
DE 결과는 변화의 크기보다 데이터 구조에 더 민감하다
4. 실제 사례 ①: replicate 수에 따른 결과 변화
한 proteomics 연구에서
- n=3 → 120개 protein 유의
- n=6 → 40개 protein만 유지
즉,
초기 결과의 70% 이상이 사라졌다.
왜 이런 일이 생길까?
👉 small sample에서 우연한 패턴이
“유의한 변화”로 보였기 때문이다
5. multiple testing: 유의미해 보이는 착각
proteomics에서는 수천 개 단백질을 동시에 분석한다.
이 경우
- p < 0.05 기준 적용 시
- 5%는 무조건 false positive
예:
- 5000 proteins 분석
→ 약 250개는 우연히 유의
그래서 FDR correction을 사용한다.
하지만 여기서 또 문제가 생긴다.
6. FDR도 완벽하지 않다
FDR은 false positive를 줄이지만
- false negative 증가
- subtle change 제거
즉,
👉 진짜 biological signal이 사라질 수도 있다
7. fold change의 함정
fold change는 직관적이다.
- 2배 증가 → 중요해 보임
하지만 실제로는
- low abundance에서 noise 영향 큼
- ratio inflation 발생
실제 사례 ②
- 실제 변화: 미미
- 측정값: 5배 증가
→ low signal 영역에서 noise 증폭
즉,
큰 fold change가 항상 큰 변화는 아니다
8. missing value가 만드는 가짜 차이
proteomics 데이터에서 missing value는 흔하다.
문제는 이걸 처리하는 방식이다.
흔한 상황
- group A: detection
- group B: missing
→ fold change 무한대
하지만 실제로는
👉 detection limit 문제일 가능성 높음
9. normalization이 biological signal을 지운다
normalization은 필수지만
항상 안전한 것은 아니다.
실제 사례 ③
- 전체 protein abundance 증가
- normalization 후 → 차이 사라짐
즉,
👉 진짜 biological 변화가 제거됨
10. batch effect: 숨겨진 변수
다른 날, 다른 조건에서 측정하면
- instrument 상태
- 환경 변화
이 결과에 영향을 준다.
실제 사례 ④
- control vs disease
- 사실상 batch 차이
하지만 분석에서는
👉 disease effect로 해석
11. peptide-level inconsistency
하나의 단백질은 여러 peptide로 구성된다.
문제는
- peptide마다 변화 방향 다름
상황
- peptide A ↑
- peptide B ↓
이 경우
👉 protein level DE는 불안정
12. biological relevance vs statistical significance
가장 중요한 문제다.
예시
- p < 0.001
- fold change = 1.1
→ 통계적으로 유의
하지만
👉 biological impact 거의 없음
반대로
- p > 0.05
- fold change = 3
→ 통계적으로 비유의
하지만
👉 실제 biological 의미 있음
13. 실제 사례 ⑤: pathway 해석 오류
한 연구에서
- DE protein 기반 pathway 분석
결과:
→ 특정 pathway 활성화
하지만 후속 연구에서
- 일부 protein만 artifact
- pathway 전체 해석 오류
14. 가장 위험한 순간
데이터가 “너무 잘 맞을 때”다.
- volcano plot 깔끔
- pathway 명확
- 스토리 완성
이 순간 연구자는 확신한다.
“이건 맞다”
하지만 실제로는
👉 분석 pipeline이 만든 결과일 수도 있다
15. 왜 이런 일이 반복되는가
이유는 간단하다.
우리는
👉 데이터를 “발견”한다고 생각하지만
실제로는 “구성”하고 있기 때문이다
16. 실무에서의 대응 전략
1) replicate 늘리기
small n은 가장 큰 위험 요소
2) peptide-level 확인
단일 peptide 의존 금지
3) orthogonal validation
- Western blot
- targeted MS
4) batch control
randomization 필수
5) 해석 보수적으로
확신보다 가능성 중심
17. 핵심 정리
Differential expression은
- 진실이 아니다
- 해석의 출발점이다
이걸 결과로 받아들이는 순간
연구는 왜곡되기 시작한다.
결론
Differential expression 결과는
가장 매력적인 데이터다.
숫자도 명확하고
통계도 깔끔하다.
그래서 더 위험하다.
왜냐하면
👉 “그럴듯하게 틀릴 수 있기 때문”이다
마지막 질문
모든 DE 결과 앞에서
반드시 물어야 한다.
“이 차이는 biological 변화인가,
아니면 데이터가 만든 구조인가?”
이 질문 하나가
연구의 방향을 완전히 바꾼다.
'제약산업' 카테고리의 다른 글
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
|---|---|
| Proteomics에서 가장 위험한 착각 (0) | 2026.04.22 |
| 대사체 안정성 문제가 임상 연구에서 특히 중요한 이유 (0) | 2026.04.21 |
| 내부 표준 선택이 metabolomics 정량 신뢰도에 미치는 영향 (0) | 2026.04.20 |
| 전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0) | 2026.04.19 |
| Metabolomics에서 ‘보이는 것’과 ‘존재하는 것’의 차이 (0) | 2026.04.18 |
| LC-MS 조건 하나로 결과가 바뀌는 이유 (0) | 2026.04.17 |
| Untargeted metabolomics에서 가장 위험한 착각 (0) | 2026.04.16 |
- Total
- Today
- Yesterday
- 대사체 분석
- 임상시험
- 제약
- matrix effect
- 약물분석
- lc-ms/ms
- 해석
- Proteomics
- ich m10
- 정밀의료
- bioanalysis
- 정량분석
- Targeted Metabolomics
- 치료제
- 시스템
- 바이오마커
- AI
- 신약개발
- 제약산업
- Biomarker
- 미래산업
- metabolomics
- audit
- Spatial metabolomics
- biological signal
- 분석
- 분석팀
- LC-MS
- Multi-omics
- 데이터
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
