티스토리 뷰
1. 왜 proteomics에서 Batch effect는 metabolomics보다 더 심각한가
Metabolomics에서도 batch effect는 문제지만, proteomics에서는 다음 이유로 훨씬 증폭됩니다.
✔ 단백질은 “측정 대상”이 아니라 “추론 대상”
- 펩타이드 → 단백질 매핑 과정 존재
- missing peptide → 단백질 정량 왜곡
- batch별 peptide detection 차이 → 단백질 abundance drift
✔ 샘플 준비 과정이 길고 복잡
- digestion efficiency
- desalting recovery
- labeling efficiency (TMT 등)
✔ 장비 조건의 미세 변화에 매우 민감
- spray stability
- ion transmission
- collision energy drift
👉 결과:
같은 biological signal보다 batch effect가 더 크게 보이는 상황 발생
2. Batch effect가 데이터 해석을 왜곡하는 실제 패턴
2.1 PCA에서 “질병 vs 대조군” 대신 “Batch”가 분리됨
정상 패턴
- PC1 → disease effect
- PC2 → biological variability
문제 패턴
- PC1 → batch
- PC2 → disease
👉 연구자는 disease signature를 찾았다고 믿지만
👉 실제로는 분석 날짜를 구분한 것
2.2 Differential expression 결과가 batch에 따라 뒤집힘
예시:
| Protein | Batch1 FC | Batch 2 FC | 통합 결과 |
| A | ↑ | ↓ | NS |
| B | ↑ | ↑ | ↑ |
| C | ↓ | ↑ | NS |
👉 batch 간 방향성 불일치
👉 false negative 증가
2.3 Missing value 패턴이 batch별로 다름
Proteomics에서 missing value는 흔하지만
문제는 무작위가 아니라 batch-dependent일 때입니다.
예:
| Protein | Batch 1 | Batch 2 |
| X | detected | missing |
| Y | missing | detected |
👉 데이터 보정 과정에서
👉 존재하지 않는 생물학적 차이가 만들어짐
3. Batch effect가 발생하는 진짜 원인
3.1 Sample preparation drift
가장 흔하지만 과소평가되는 원인
- trypsin activity lot 차이
- digestion 시간 편차
- lab temperature
- desalting cartridge lot 차이
👉 QC peptide는 정상인데
👉 실제 단백질 recovery는 변함
3.2 LC-MS 시스템 drift
- 컬럼 aging
- emitter contamination
- pump pressure fluctuation
- gradient delay volume 변화
특히 장기 프로젝트에서 심각합니다.
3.3 Data acquisition 전략의 영향
DDA
- stochastic sampling
- batch마다 다른 peptide 선택
DIA
- 더 안정적이지만
- spectral library batch 의존성 존재
👉 library가 batch 1 기반이면
👉 batch 2 peptide ID 효율 저하
4. “QC가 통과했는데도 batch effect가 큰 이유”
많은 팀이 QC를 신뢰하지만, proteomics에서는 함정이 있습니다.
✔ QC는 보통 pooled sample
→ biological diversity 반영 안 됨
✔ QC peptide 수가 제한적
→ 전체 proteome 대표성 부족
✔ QC는 detection consistency만 평가
→ absolute abundance drift는 놓침
👉 QC pass ≠ batch bias 없음
5. Batch effect를 줄이기 위한 설계 전략
5.1 실험 설계 단계에서의 예방
✔ randomized injection order
- disease/control 섞어서 주입
✔ batch 균형 배치
- 각 batch에 동일 그룹 포함
✔ reference sample 반복 측정
- inter-batch normalization anchor
5.2 데이터 레벨 보정 전략
✔ normalization 방법 선택
| 방법 | 장점 | 위험 |
| Total ion normalization | 간단 | global shift 가정 |
| Median normalization | robust | 극단값 영향 |
| Quantile normalization | batch 차이 감소 | biological signal 왜곡 가능 |
| ComBat | 강력한 batch 보정 | 과보정 위험 |
👉 핵심:
보정 후 biological signal이 유지되는지 반드시 검증
6. Batch effect를 발견하는 체크리스트
분석팀이 실제로 쓰는 체크 포인트:
✔ PCA에서 batch clustering 여부
✔ batch별 missing value 비율
✔ batch별 peptide ID 수
✔ reference sample CV drift
✔ internal standard peptide intensity drift
7. 가장 위험한 상황: Batch effect를 biological signal로 오해하는 순간
이것이 실제 연구에서 가장 치명적입니다.
실제로 발생하는 오류
- 잘못된 biomarker 후보 선정
- 재현 실패
- 후속 연구 비용 낭비
- 임상 적용 실패
👉 proteomics 재현성 위기의 핵심 원인 중 하나
마무리
Proteomics에서 batch effect는 단순한 기술적 변동이 아니라
데이터 해석의 방향 자체를 바꾸는 구조적 왜곡입니다.
특히 위험한 점은:
QC가 통과했는데도
결과는 이미 batch에 의해 결정되어 있을 수 있다는 것
이 지점을 이해하는 순간,
proteomics 데이터 해석의 관점이 완전히 달라집니다.

'제약산업' 카테고리의 다른 글
| Proteomics에서 Missing Value를 어떻게 해석해야 하는가 (1) | 2026.03.13 |
|---|---|
| Proteomics 정량 전략 비교: LFQ vs TMT (0) | 2026.03.12 |
| DIA(Data-Independent Acquisition)가 Proteomics 표준이 되는 이유 (0) | 2026.03.11 |
| Shotgun Proteomics에서 재현성이 무너지는 진짜 이유 (0) | 2026.03.10 |
| 대사체 연구에서 Negative Result가 더 중요한 이유 (0) | 2026.03.09 |
| Metabolomics에서 QC sample이 통과해도 결과를 믿기 어려운 이유 (0) | 2026.03.08 |
| Batch effect가 결과 해석을 어떻게 왜곡하는가 (1) | 2026.03.07 |
| Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법 (0) | 2026.03.06 |
- Total
- Today
- Yesterday
- 분석
- 신약 개발
- audit
- lc-ms/ms
- 대사체 분석
- 신약개발
- metabolomics
- 약물개발
- 임상시험
- LC-MS
- 분석팀
- AI
- Multi-omics
- 데이터
- 바이오마커
- 정량분석
- 약물분석
- Spatial metabolomics
- 머신러닝
- 디지털헬스케어
- 시스템
- 제약
- 미래산업
- Targeted Metabolomics
- 정밀의료
- ich m10
- bioanalysis
- 제약산업
- matrix effect
- 치료제
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
