티스토리 뷰

728x90

Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법
Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법

1. 왜 이 구분이 그렇게 중요한가

metabolomics 데이터의 변이는 크게 두 축에서 발생한다.

✔ Biological variation (생물학적 변이)

  • 개인 간 유전적 차이
  • 식이, 생활습관, 약물 복용
  • 질병 상태
  • circadian rhythm
  • microbiome 차이

👉 연구자가 찾고 싶은 진짜 신호

✔ Analytical variation (분석 변이)

  • sample preparation 오차
  • extraction efficiency 차이
  • LC retention time drift
  • MS sensitivity fluctuation
  • batch effect
  • ion suppression / matrix effect

👉 제거하거나 보정해야 할 기술적 노이즈

2. 가장 먼저 확인해야 할 질문

실무에서는 항상 이 질문부터 시작한다.

❓ 질문 1

QC sample은 얼마나 안정적인가?

  • QC RSD < 15% → 분석 시스템 안정
  • QC RSD > 30% → 분석 변이 지배

👉 QC가 흔들리면 biological 해석은 의미 없음.

❓ 질문 2

Batch 간 drift가 존재하는가?

  • PCA에서 batch별 clustering 발생
  • injection order에 따라 intensity 변화

👉 batch effect = 분석 변이

3. 실전 구분 전략: 5단계 접근법

Step 1. QC 기반 변이 분해 (Variance decomposition)

방법

  • QC 샘플 반복 주입
  • feature별 RSD 계산

해석


상황 해석
QC RSD 낮음, sample 변이 큼 biological signal 가능
QC RSD 높음 analytical noise

👉 QC는 분석 변이의 ‘기준선’이다.

Step 2. PCA에서 QC의 위치 확인

이상적인 패턴

  • QC 샘플이 하나의 cluster 형성
  • 실제 샘플은 그룹별 분리

👉 분석 시스템 안정 + biological 차이 존재

위험한 패턴

  • QC가 퍼져 있음
  • batch별 cluster 형성

👉 분석 변이가 biological 신호를 덮음

Step 3. Injection order vs intensity correlation

분석 방법

  • feature intensity vs injection order regression

해석

패턴 의미
시간에 따라 감소 MS sensitivity drift
saw-tooth 패턴 batch effect
무작위 biological 가능

👉 시간 의존 패턴 = 분석 변이의 대표적 특징

Step 4. Mixed-effect 모델로 변이 분리

고급 분석에서는 통계 모델을 활용한다.

모델 구조

 
Intensity ~ Group (biological) + Batch (analytical) + Residual
 

결과 해석

  • Batch effect > Group effect → 분석 변이 지배
  • Group effect 유지 → biological signal 존재

👉 실제 biomarker discovery에서 매우 중요

Step 5. Feature filtering 전략

분석 변이를 줄이기 위한 표준 접근:

필터링 기준

  • QC RSD > 30% 제거
  • blank 대비 signal < 3배 제거
  • missing rate > 20% 제거

👉 기술적 노이즈 제거 후 biological 해석

4. 자주 발생하는 오해

❌ 오해 1: 통계적으로 유의하면 biological이다

→ p-value는 분석 변이를 구분하지 못함

❌ 오해 2: fold change가 크면 의미 있다

→ ion suppression만으로도 fold change 발생 가능

❌ 오해 3: PCA separation = biological difference

→ batch effect로도 완벽한 separation 가능

5. 실제 사례: 완전히 잘못된 biomarker 발견

상황

  • disease vs control PCA separation 명확
  • 120개 feature 유의

문제 발견

  • batch별로 disease/control 분리되어 주입됨
  • QC drift 존재

결론

👉 biomarker 전부 batch effect

이 사례는 실제 metabolomics에서 매우 흔하다.

6. Biological vs Analytical 변이의 핵심 차이

 

특징 Biological variation Analytical variation
QC에서 나타나는가
시간 의존성
batch 의존성
재분석 시 재현
보정 가능성 낮음 높음

7. 실무자가 기억해야 할 핵심 원칙

원칙 1

QC가 흔들리면 해석을 멈춰라

원칙 2

batch effect는 발견되는 것이 아니라 설계로 예방된다

  • randomized injection order
  • QC every 5–10 injections
  • pooled QC 사용

원칙 3

통계 분석 전에 분석 변이를 제거하라

통계는 노이즈를 제거하지 못한다.
단지 노이즈 위에서 계산될 뿐이다.

8. 결론: 구분이 아니라 “증명”의 문제다

생물학적 변이와 분석 변이를 구분하는 것은
단순한 데이터 해석 문제가 아니다.

👉 이것은 데이터 신뢰성을 증명하는 과정이다.

좋은 metabolomics 연구는 이렇게 말할 수 있어야 한다:

“이 차이는 기기 때문이 아니라, 생물학 때문이다.”

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함