티스토리 뷰

728x90

1. 왜 proteomics에서 Batch effect는 metabolomics보다 더 심각한가

Metabolomics에서도 batch effect는 문제지만, proteomics에서는 다음 이유로 훨씬 증폭됩니다.

✔ 단백질은 “측정 대상”이 아니라 “추론 대상”

  • 펩타이드 → 단백질 매핑 과정 존재
  • missing peptide → 단백질 정량 왜곡
  • batch별 peptide detection 차이 → 단백질 abundance drift

✔ 샘플 준비 과정이 길고 복잡

  • digestion efficiency
  • desalting recovery
  • labeling efficiency (TMT 등)

✔ 장비 조건의 미세 변화에 매우 민감

  • spray stability
  • ion transmission
  • collision energy drift

👉 결과:
같은 biological signal보다 batch effect가 더 크게 보이는 상황 발생

2. Batch effect가 데이터 해석을 왜곡하는 실제 패턴

2.1 PCA에서 “질병 vs 대조군” 대신 “Batch”가 분리됨

정상 패턴

  • PC1 → disease effect
  • PC2 → biological variability

문제 패턴

  • PC1 → batch
  • PC2 → disease

👉 연구자는 disease signature를 찾았다고 믿지만
👉 실제로는 분석 날짜를 구분한 것

2.2 Differential expression 결과가 batch에 따라 뒤집힘

예시:

Protein Batch1 FC Batch 2 FC 통합 결과
A NS
B
C NS

👉 batch 간 방향성 불일치
👉 false negative 증가

2.3 Missing value 패턴이 batch별로 다름

Proteomics에서 missing value는 흔하지만
문제는 무작위가 아니라 batch-dependent일 때입니다.

예:

 

Protein Batch 1 Batch 2
X detected missing
Y missing detected

👉 데이터 보정 과정에서
👉 존재하지 않는 생물학적 차이가 만들어짐

3. Batch effect가 발생하는 진짜 원인

3.1 Sample preparation drift

가장 흔하지만 과소평가되는 원인

  • trypsin activity lot 차이
  • digestion 시간 편차
  • lab temperature
  • desalting cartridge lot 차이

👉 QC peptide는 정상인데
👉 실제 단백질 recovery는 변함

3.2 LC-MS 시스템 drift

  • 컬럼 aging
  • emitter contamination
  • pump pressure fluctuation
  • gradient delay volume 변화

특히 장기 프로젝트에서 심각합니다.

3.3 Data acquisition 전략의 영향

DDA

  • stochastic sampling
  • batch마다 다른 peptide 선택

DIA

  • 더 안정적이지만
  • spectral library batch 의존성 존재

👉 library가 batch 1 기반이면
👉 batch 2 peptide ID 효율 저하

4. “QC가 통과했는데도 batch effect가 큰 이유”

많은 팀이 QC를 신뢰하지만, proteomics에서는 함정이 있습니다.

✔ QC는 보통 pooled sample

→ biological diversity 반영 안 됨

✔ QC peptide 수가 제한적

→ 전체 proteome 대표성 부족

✔ QC는 detection consistency만 평가

→ absolute abundance drift는 놓침

👉 QC pass ≠ batch bias 없음

5. Batch effect를 줄이기 위한 설계 전략

5.1 실험 설계 단계에서의 예방

✔ randomized injection order

  • disease/control 섞어서 주입

✔ batch 균형 배치

  • 각 batch에 동일 그룹 포함

✔ reference sample 반복 측정

  • inter-batch normalization anchor

5.2 데이터 레벨 보정 전략

✔ normalization 방법 선택


방법 장점 위험
Total ion normalization 간단 global shift 가정
Median normalization robust 극단값 영향
Quantile normalization batch 차이 감소 biological signal 왜곡 가능
ComBat 강력한 batch 보정 과보정 위험

👉 핵심:
보정 후 biological signal이 유지되는지 반드시 검증

6. Batch effect를 발견하는 체크리스트

분석팀이 실제로 쓰는 체크 포인트:

✔ PCA에서 batch clustering 여부
✔ batch별 missing value 비율
✔ batch별 peptide ID 수
✔ reference sample CV drift
✔ internal standard peptide intensity drift

7. 가장 위험한 상황: Batch effect를 biological signal로 오해하는 순간

이것이 실제 연구에서 가장 치명적입니다.

실제로 발생하는 오류

  • 잘못된 biomarker 후보 선정
  • 재현 실패
  • 후속 연구 비용 낭비
  • 임상 적용 실패

👉 proteomics 재현성 위기의 핵심 원인 중 하나

마무리

Proteomics에서 batch effect는 단순한 기술적 변동이 아니라
데이터 해석의 방향 자체를 바꾸는 구조적 왜곡입니다.

특히 위험한 점은:

QC가 통과했는데도
결과는 이미 batch에 의해 결정되어 있을 수 있다는 것

이 지점을 이해하는 순간,
proteomics 데이터 해석의 관점이 완전히 달라집니다.

 

Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조
Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조

 

728x90