티스토리 뷰

— p-value가 낮아지는 순간, 해석은 오히려 위험해진다
어느 순간부터 우리는
데이터를 이렇게 읽기 시작한다.
“p-value가 0.05보다 작다 → 의미 있다”
이건 너무 익숙해서
이제는 거의 반사처럼 이어지는 사고다.
그래서 결과를 정리할 때도
자연스럽게 이렇게 쓴다.
“이 단백질은 유의하게 증가하였다”
그리고 그 다음 문장은
거의 자동으로 따라온다.
“따라서 이 단백질은 중요한 역할을 한다”
하지만 이 두 문장 사이에는
생각보다 큰 간극이 있다.
그리고 대부분의 오류는
바로 이 간극에서 시작된다.
숫자는 명확하지만, 의미는 그렇지 않다
통계적으로 유의하다는 것은
수학적으로는 매우 명확한 개념이다.
하지만 biological 의미는
그렇지 않다.
예를 들어보자.
- fold change: 1.05
- p-value: 0.0001
이 데이터는
통계적으로 매우 강력하다.
하지만 질문을 바꿔보면
조금 이상해진다.
“이 변화가 실제로 의미가 있을까?”
5% 변화는
측정 오차, 환경 변화, 생리적 변동 안에
충분히 포함될 수 있는 수준이다.
즉,
통계는 확실하지만, 생물학은 애매한 상태
이게 바로
가장 흔하게 놓치는 지점이다.
왜 이런 일이 반복되는가
이유는 생각보다 단순하다.
우리는
👉 “검출 가능성”과 “의미”를
같은 것으로 착각하기 때문이다
통계는
“차이를 검출할 수 있는가”를 묻는다.
하지만 biology는
“그 차이가 중요한가”를 묻는다.
이 두 질문은 전혀 다르다.
sample size가 커질수록 의미 없는 결과는 늘어난다
데이터 수가 많아질수록
통계적 검정은 더 민감해진다.
그래서 아주 작은 차이도
유의하게 검출된다.
실제 상황
- n = 3 → p = 0.08
- n = 100 → p < 0.001
같은 차이지만
표본 수만 늘어났을 뿐이다.
하지만 결과 해석은 완전히 달라진다.
- 전자는 “유의하지 않음”
- 후자는 “매우 중요한 변화”
이건 데이터의 변화가 아니라
검출 능력의 변화다
variance가 낮을수록 ‘의미 없는 확신’이 생긴다
데이터의 분산이 낮으면
p-value는 쉽게 작아진다.
그래서 이런 상황이 발생한다.
- 변화는 작다
- 데이터는 매우 일관적이다
→ p-value 매우 작음
이 경우 우리는
강한 확신을 갖게 된다.
하지만 biological impact는
거의 없을 수도 있다.
실제 사례 ①: housekeeping protein의 변화
여러 proteomics 연구에서
housekeeping protein이
유의하게 변하는 경우가 보고된다.
- p-value 매우 낮음
- fold change 작음
하지만 실제로는
- normalization artifact
- loading 차이
일 가능성이 높다.
즉,
통계적으로는 강하지만
해석은 틀릴 수 있는 대표 사례
fold change와 p-value의 불균형
이 두 지표는
서로 다른 것을 말한다.
- fold change → 변화의 크기
- p-value → 변화의 신뢰도
문제는
이 둘이 항상 일치하지 않는다는 점이다.
대표적인 두 상황
1️⃣ 작은 변화 + 낮은 p-value
→ statistically strong, biologically weak
2️⃣ 큰 변화 + 높은 p-value
→ statistically weak, biologically strong
Volcano plot에서는
첫 번째가 더 눈에 띈다.
그래서 우리는
중요한 것을 놓치고
덜 중요한 것에 집중하게 된다.
실제 사례 ②: 임상 데이터에서의 과해석
대규모 cohort 연구에서
- 특정 단백질이 p < 0.00001로 증가
하지만 fold change는 1.1 수준
이 결과를 기반으로
질환 biomarker로 제시되었지만
후속 연구에서는
- 재현성 낮음
- 임상적 의미 없음
으로 결론이 났다.
biological system은 ‘threshold’ 기반으로 작동한다
통계는 연속적인 변화를 본다.
하지만 biological system은
종종 임계값(threshold)을 가진다.
예를 들어
- enzyme activity
- receptor binding
이런 시스템에서는
- 10% 변화 → 영향 없음
- 2배 변화 → 기능 변화
즉,
작은 변화는 아무 의미가 없을 수 있다
하지만 통계는
이 차이를 구분하지 않는다.
실제 사례 ③: signaling pathway 해석 오류
한 연구에서
- pathway 관련 protein 다수 유의
하지만 각각의 fold change는 매우 작음
이걸 기반으로
“pathway activation”으로 해석
하지만 functional assay에서는
→ 실제 변화 없음
기술적 요인이 만들어내는 ‘가짜 유의성’
omics 데이터에서는
기술적 요인이 매우 크다.
- batch effect
- instrument drift
- sample preparation
이런 요인들이
일관되게 작용하면
→ p-value는 매우 작아진다
하지만 그건 biological signal이 아니라
기술적 일관성이다
실제 사례 ④: batch-driven significance
- batch 1 vs batch 2
- 동일 biological 상태
하지만 분석 결과
→ 수십 개 단백질 유의
원인:
→ instrument condition 차이
가장 위험한 순간
데이터가 완벽하게 정리될 때다.
- p-value 매우 낮음
- fold change 일정
- pathway 연결됨
이때 우리는
“이건 확실하다”고 느낀다.
하지만 실제로는
→ 가장 그럴듯하게 틀린 상태일 수 있다
우리는 왜 이런 결과를 믿게 되는가
이유는 간단하다.
p-value는
객관적인 숫자처럼 보이기 때문이다.
그리고 인간은
숫자에 약하다.
특히
- 소수점
- 과학적 표기
이 붙으면
더 믿게 된다.
실무에서의 대응 전략
1) effect size 먼저 보기
p-value보다 fold change를 먼저 해석
2) biological threshold 고려
실제 기능 변화 가능한 수준인지 판단
3) replicate 간 분포 확인
boxplot, raw data 확인 필수
4) orthogonal validation
- functional assay
- targeted quantification
5) “이게 중요한가?”를 계속 질문
통계가 아니라 biology 기준으로 판단
핵심 정리
통계적 유의성은
- 변화의 존재를 말한다
- 의미를 말하지 않는다
biological 의미는
- 변화의 크기
- 시스템의 특성
- 기능적 영향
이 모든 것을 포함한다.
결론
p-value가 낮아지는 순간
우리는 안심한다.
“이건 맞다”
하지만 바로 그 순간
해석은 가장 위험해진다.
왜냐하면
👉 확신이 생겼기 때문이다
마지막 질문
모든 결과 앞에서
이 질문을 먼저 해야 한다.
“이 변화는 측정 가능한가,
아니면 의미 있는가?”
이 두 가지를 구분하지 못하는 순간
데이터는 언제든지
그럴듯하게 틀릴 수 있다.
'제약산업' 카테고리의 다른 글
| Volcano plot이 진실을 가리는 방식 (0) | 2026.04.25 |
|---|---|
| Differential expression 결과를 그대로 믿으면 안 되는 이유 (0) | 2026.04.24 |
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
| Proteomics에서 가장 위험한 착각 (0) | 2026.04.22 |
| 대사체 안정성 문제가 임상 연구에서 특히 중요한 이유 (0) | 2026.04.21 |
| 내부 표준 선택이 metabolomics 정량 신뢰도에 미치는 영향 (0) | 2026.04.20 |
| 전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0) | 2026.04.19 |
| Metabolomics에서 ‘보이는 것’과 ‘존재하는 것’의 차이 (0) | 2026.04.18 |
- Total
- Today
- Yesterday
- audit
- 약물분석
- lc-ms/ms
- 바이오마커
- 분석팀
- ich m10
- Multi-omics
- Targeted Metabolomics
- Spatial metabolomics
- LC-MS
- 분석
- 신약개발
- Biomarker
- 제약산업
- 제약
- 치료제
- 데이터
- biological signal
- Proteomics
- matrix effect
- metabolomics
- AI
- 대사체 분석
- 해석
- 정밀의료
- 미래산업
- 정량분석
- 임상시험
- 시스템
- bioanalysis
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
