티스토리 뷰

— 가장 직관적인 그래프가 가장 많은 것을 숨길 때
처음 Volcano plot을 접했을 때의 느낌을 아직도 기억한다.
데이터가 이렇게까지 명확하게 보일 수 있다는 사실이
오히려 놀라웠다.
좌우로 나뉘어진 점들,
위로 올라갈수록 강해지는 신뢰도,
그리고 그 위에 표시된 몇 개의 단백질 이름.
그건 마치 데이터가 스스로 말하고 있는 것처럼 보였다.
“이게 답이야.”
그래서 우리는 자연스럽게 그 그림을 믿는다.
의심 없이, 망설임 없이.
하지만 시간이 지나고,
비슷한 실험을 반복하고,
결과가 재현되지 않는 순간을 몇 번 겪고 나면
이 질문이 떠오른다.
“이 그래프는 정말 진실을 보여주는 걸까?”
1. Volcano plot은 ‘단순한 시각화’가 아니다
겉으로 보면 Volcano plot은 단순하다.
- x축: log2 fold change
- y축: -log10 p-value
이 두 축만 있으면
모든 것이 설명되는 것처럼 보인다.
하지만 이 두 값은
그 자체로 존재하는 값이 아니다.
이 값들은 다음 과정을 모두 통과한 결과다.
- sample collection
- sample storage
- protein extraction
- digestion
- LC-MS acquisition
- peak detection
- normalization
- missing value 처리
- statistical modeling
즉,
Volcano plot은 데이터의 “출발점”이 아니라
“마지막 단계의 결과물”이다
문제는 이 과정이
그래프에서는 완전히 보이지 않는다는 점이다.
2. 실제 사례 ①: 같은 데이터, 다른 Volcano plot
한 proteomics 연구에서
동일한 raw 데이터를 가지고
서로 다른 분석 pipeline을 적용한 사례가 있다.
- pipeline A → 약 300개의 유의 단백질
- pipeline B → 약 80개의 유의 단백질
그리고 두 Volcano plot을 비교했을 때
겹치는 단백질은 절반도 되지 않았다.
왜 이런 일이 발생했을까?
원인을 보면 의외로 단순하다.
- normalization 방식 차이
- missing value 처리 방법 차이
- 통계 모델 선택 차이
즉,
Volcano plot은 데이터가 아니라
분석자가 선택한 방법을 반영한다
3. 경계선이 만들어내는 ‘가짜 확신’
대부분의 Volcano plot에는
보이지 않는 기준선이 존재한다.
- p < 0.05
- |log2FC| > 1
이 기준을 넘으면
점은 강조되고, 색이 바뀌고, 라벨이 붙는다.
이 순간 데이터는
두 개의 그룹으로 나뉜다.
- significant
- not significant
하지만 현실은 그렇게 단순하지 않다.
예를 들어보자.
- 단백질 A: p = 0.049
- 단백질 B: p = 0.051
이 둘은 거의 동일한 데이터다.
하지만 Volcano plot에서는
- A → 중요한 단백질
- B → 무시되는 단백질
이렇게 완전히 다른 취급을 받는다.
이건 데이터의 차이가 아니라
기준선이 만들어낸 착각이다
4. p-value는 ‘크기’가 아니라 ‘안정성’을 반영한다
Volcano plot에서 위로 올라간다는 것은
p-value가 낮다는 의미다.
그래서 우리는 자연스럽게 이렇게 생각한다.
“위에 있을수록 중요하다”
하지만 p-value는
변화의 크기를 반영하지 않는다.
이건 오히려
- 데이터의 분산
- 반복 간 일관성
을 반영한다.
실제 사례 ②: 작은 변화가 더 위로 올라간다
한 cancer proteomics 연구에서
- protein A → fold change 1.2, p < 0.001
- protein B → fold change 3.5, p = 0.08
Volcano plot에서는
→ protein A가 훨씬 “중요해 보인다”
하지만 실제 biological impact는
protein B가 훨씬 클 가능성이 있다.
즉,
Volcano plot은 크기가 아니라 안정성을 강조한다
5. fold change의 함정: 특히 low abundance 영역
x축에 있는 fold change는
직관적인 지표처럼 보인다.
하지만 특히 low intensity 영역에서는
이 값이 쉽게 왜곡된다.
실제 사례 ③: noise-driven fold change
low abundance peptide에서
- signal A: 100 → 200
- signal B: 10 → 20
두 경우 모두 fold change는 2배다.
하지만
- 첫 번째는 안정적인 변화
- 두 번째는 noise 가능성 높음
Volcano plot은 이 둘을 구분하지 않는다.
그래서 그래프의 양 끝에는
종종 이런 점들이 등장한다.
→ “극단적으로 변화한 것처럼 보이는 noise”
6. missing value가 Volcano plot을 재구성한다
proteomics에서 missing value는
피할 수 없는 문제다.
문제는 이 값을
어떻게 처리하느냐다.
대표적인 상황
- group A: 검출됨
- group B: 미검출
이 경우 흔히 사용하는 방법은
imputation이다.
하지만 imputation 방식에 따라
- fold change 극단적으로 증가
- p-value 변화
이 발생한다.
실제 사례 ④: imputation에 따른 결과 뒤집힘
동일 데이터에서
- method 1 (random imputation) → 150개 DE
- method 2 (low value imputation) → 320개 DE
Volcano plot 자체가 완전히 달라졌다.
즉,
그래프의 모양이 데이터가 아니라
결측 처리 방법에 의해 결정될 수 있다
7. normalization: 조용하지만 강력한 영향
normalization은 필수다.
하지만 동시에 위험하다.
실제 사례 ⑤: global shift의 제거
한 실험에서
- 전체 protein abundance 증가
하지만 total ion normalization 적용 후
→ 변화가 거의 사라짐
Volcano plot에서는
→ “차이가 없는 것처럼” 보임
즉,
실제 biological signal이 normalization 과정에서 제거됨
8. batch effect: Volcano plot이 숨기는 가장 큰 변수
batch effect는
omics 연구에서 가장 흔한 문제 중 하나다.
실제 사례 ⑥: batch vs disease
- control → batch 1
- disease → batch 2
Volcano plot 결과:
→ 수백 개의 DE protein
하지만 batch correction 후:
→ 대부분 사라짐
즉,
질병 효과가 아니라 batch 효과였다
9. peptide-level inconsistency
proteomics에서는
단백질이 아니라 peptide를 측정한다.
문제는
- peptide마다 신호가 다르게 변한다는 점이다.
실제 상황
하나의 단백질에서
- peptide 1 → 증가
- peptide 2 → 감소
- peptide 3 → 변화 없음
이 경우 protein-level fold change는
계산 방식에 따라 달라진다.
Volcano plot에서는
이 불확실성이 전혀 드러나지 않는다.
10. multiple testing: 필연적인 false positive
수천 개 단백질을 동시에 분석하면
일부는 무조건 유의하게 나온다.
실제 수치
- 5000 proteins
- p < 0.05
→ 약 250개 false positive
그래서 FDR correction을 사용하지만
이 역시 완벽하지 않다.
11. Volcano plot은 ‘스토리 생성 도구’다
Volcano plot의 가장 강력한 기능은
데이터를 보여주는 것이 아니라
이야기를 만들어내는 것이다.
- 좌우로 나뉜 구조
- 위쪽에 모인 점들
- 몇 개의 강조된 단백질
이 모든 요소가 결합되면
하나의 narrative가 만들어진다.
“이 단백질들이 핵심이다”
하지만 이 narrative는
데이터 자체가 아니라
해석의 결과물이다.
12. 실제 사례 ⑦: pathway 해석 오류
한 연구에서
- Volcano plot 기반 DE protein 선택
- pathway enrichment 수행
결과:
→ 특정 signaling pathway 활성화
하지만 후속 validation에서
- 일부 핵심 protein이 false positive
- pathway 해석 붕괴
13. 가장 위험한 순간: 그래프가 ‘예쁠 때’
경험적으로 알게 되는 사실이 있다.
Volcano plot이
너무 깔끔하게 나올 때가
가장 위험하다는 것이다.
- 좌우 대칭
- 위쪽에 뚜렷한 cluster
- 명확한 cutoff
이때 연구자는 확신한다.
“이건 맞다”
하지만 실제로는
- normalization artifact
- batch effect
- imputation bias
가 결합된 결과일 수 있다.
14. 우리는 왜 Volcano plot을 믿게 되는가
이유는 간단하다.
Volcano plot은
사람이 이해하기 가장 쉬운 형태로
데이터를 정리해준다.
그리고 인간은
- 명확한 경계
- 단순한 구조
- 시각적 패턴
을 보면
그걸 진실로 받아들이는 경향이 있다.
15. 실무에서의 대응 전략
Volcano plot을 버릴 필요는 없다.
하지만 반드시 보완해야 한다.
1) peptide-level consistency 확인
단일 peptide 기반 해석 금지
2) multiple normalization 비교
결과가 유지되는지 확인
3) imputation sensitivity 분석
방법에 따라 결과 변하는지 확인
4) batch effect 확인
PCA 등으로 사전 검증
5) orthogonal validation
- Western blot
- targeted MS
16. 핵심 정리
Volcano plot은
- 데이터를 단순화한다
- 패턴을 강조한다
- 해석을 유도한다
하지만 동시에
- 과정은 숨긴다
- 불확실성은 제거한다
- 확신을 만들어낸다
결론
Volcano plot은
나쁜 도구가 아니다.
오히려 매우 강력한 도구다.
문제는
우리가 그것을 어떻게 받아들이느냐다.
이 그래프는
진실을 보여주지 않는다.
다만
진실처럼 보이는 구조를 만들어준다
그래서 더 위험하다.
마지막 질문
다음에 Volcano plot을 보게 된다면
이 질문을 먼저 떠올리는 것이 좋다.
“이 그림은 데이터가 만든 것인가,
아니면 내가 선택한 분석 방법이 만든 것인가?”
이 질문 하나가
해석의 방향을 완전히 바꾼다
'제약산업' 카테고리의 다른 글
| Differential expression 결과를 그대로 믿으면 안 되는 이유 (0) | 2026.04.24 |
|---|---|
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
| Proteomics에서 가장 위험한 착각 (0) | 2026.04.22 |
| 대사체 안정성 문제가 임상 연구에서 특히 중요한 이유 (0) | 2026.04.21 |
| 내부 표준 선택이 metabolomics 정량 신뢰도에 미치는 영향 (0) | 2026.04.20 |
| 전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0) | 2026.04.19 |
| Metabolomics에서 ‘보이는 것’과 ‘존재하는 것’의 차이 (0) | 2026.04.18 |
| LC-MS 조건 하나로 결과가 바뀌는 이유 (0) | 2026.04.17 |
- Total
- Today
- Yesterday
- 데이터
- 분석
- lc-ms/ms
- 신약개발
- 바이오마커
- Spatial metabolomics
- biological signal
- Proteomics
- 정밀의료
- 해석
- 약물분석
- Targeted Metabolomics
- 정량분석
- AI
- matrix effect
- ich m10
- 제약산업
- 미래산업
- bioanalysis
- audit
- Biomarker
- 대사체 분석
- 임상시험
- 치료제
- metabolomics
- 시스템
- Multi-omics
- 분석팀
- LC-MS
- 제약
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
