티스토리 뷰

728x90

Batch effect가 결과 해석을 어떻게 왜곡하는가
Batch effect가 결과 해석을 어떻게 왜곡하는가

1. Batch effect는 단순한 오차가 아니다

✔ 일반적인 오해

  • “조금의 drift”
  • “보정하면 해결되는 기술적 문제”

✔ 실제 영향

Batch effect는 데이터를 다음과 같이 바꾼다:

  • 가짜 그룹 차이 생성
  • 진짜 biological signal 제거
  • biomarker 후보 뒤바뀜
  • 모델 예측력 과대평가
  • 재현성 붕괴

👉 즉, 연구 결론 자체를 바꿔버린다.

2. 가장 위험한 왜곡: 가짜 biological difference 생성

시나리오

  • Batch 1 → Control
  • Batch 2 → Disease

결과

PCA에서 완벽한 separation 발생
→ 연구자는 질병 특이 metabolite라고 해석

실제 원인

  • MS sensitivity drift
  • column aging
  • matrix effect 변화

👉 질병이 아니라 분석 순서가 차이를 만든 것

3. 왜곡 패턴 1: PCA separation의 착시

정상적 해석

  • 그룹별 분리 → biological difference

batch effect 상황

  • batch별 cluster 형성
  • 그룹과 batch가 우연히 일치

👉 PCA는 원인을 설명하지 않는다.
단지 변이가 큰 방향을 보여줄 뿐이다.

4. 왜곡 패턴 2: False biomarker discovery

Batch effect가 있으면 다음이 발생한다:

✔ False positives

  • batch-specific ion suppression
  • 특정 batch에서만 높은 intensity

✔ False negatives

  • 진짜 biomarker가 drift에 묻힘
  • sensitivity 감소로 signal 소실

실제 결과


상황 영향
False positive 쓸모없는 biomarker 개발
False negative 중요한 생물학적 신호 놓침

👉 연구 방향 자체가 틀어진다.

5. 왜곡 패턴 3: Fold change의 환상

예시

  • Batch 1 평균 intensity: 100
  • Batch 2 평균 intensity: 150

→ fold change 1.5
→ 통계적으로 유의

실제 원인

  • ion source contamination
  • detector sensitivity 변화

👉 fold change는 biological effect가 아닐 수도 있다.

6. 왜곡 패턴 4: 머신러닝 모델 성능 착시

AI/ML 모델에서 batch effect는 특히 치명적이다.

상황

  • Train set: Batch A
  • Test set: Batch B

모델이 학습하는 것:

  • 질병 패턴 ❌
  • batch 특성 ✔

결과

  • 내부 검증 accuracy: 95%
  • 외부 검증: 붕괴

👉 모델은 질병이 아니라 기기 상태를 학습

7. 왜곡 패턴 5: Multi-omics 통합 분석 붕괴

multi-omics에서는 batch effect가 더 복잡하게 작용한다.

  • metabolomics batch effect
  • transcriptomics batch effect
  • proteomics batch effect

결과

  • cross-omics correlation 왜곡
  • pathway analysis 오류
  • 네트워크 분석 붕괴

👉 시스템 생물학 해석 자체가 틀어짐

8. 실제 현장에서 자주 발생하는 상황

✔ 상황 1: 장기간 분석

  • 수개월에 걸친 sample 분석
  • column 교체
  • MS 튜닝 변경

→ batch effect 누적

✔ 상황 2: 다기관 연구

  • 서로 다른 장비
  • 서로 다른 SOP
  • 다른 시약 lot

→ 기관 효과 = batch effect

✔ 상황 3: 임상 샘플 분석 순서

  • 환자군 먼저 분석
  • 대조군 나중 분석

→ 그룹 = batch

👉 가장 위험한 설계 오류

9. Batch effect가 재현성을 붕괴시키는 메커니즘

첫 연구

  • batch-specific signal → biomarker 발견

후속 연구

  • batch 조건 다름
    → biomarker 재현 실패

결론

“metabolomics는 재현성이 낮다”는 오해 발생

👉 실제 문제는 batch effect

10. Batch effect를 의심해야 하는 신호들

데이터에서 보이는 패턴

  • PCA에서 batch별 clustering
  • injection order와 intensity 상관
  • QC drift
  • 특정 날짜에만 신호 변화
  • 특정 plate에서만 차이 발생

👉 이 패턴이 보이면 biological 해석 중단

11. 왜 사람들은 batch effect를 과소평가하는가

이유 1: 눈에 보이는 결과를 믿는다

PCA separation → 강한 확신

이유 2: 통계가 유의성을 보장한다고 믿는다

p-value는 원인을 설명하지 않는다.

이유 3: 실험 설계보다 분석을 신뢰한다

데이터 보정은 설계 오류를 완전히 해결하지 못한다.

12. 핵심 메시지

Batch effect는 단순한 기술적 문제가 아니라
과학적 해석을 왜곡하는 구조적 오류다.

13. 기억해야 할 한 문장

“Batch effect는 데이터를 흔드는 것이 아니라, 결론을 바꾼다.”

 

14. 실무자를 위한 즉각적인 점검 질문

분석 결과를 보기 전에 스스로 물어야 한다:

  • 그룹과 batch가 섞여 있는가?
  • QC는 안정적인가?
  • 분석 순서가 무작위인가?
  • batch를 설명 변수로 모델링했는가?

이 질문에 하나라도 “아니오”가 나오면
결과 해석은 아직 시작하면 안 된다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함