Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법

티스토리 뷰

제약산업

Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법

pharma_info 2026. 3. 6. 20:50

728x90

Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법

1. 왜 이 구분이 그렇게 중요한가

metabolomics 데이터의 변이는 크게 두 축에서 발생한다.

✔ Biological variation (생물학적 변이)

개인 간 유전적 차이
식이, 생활습관, 약물 복용
질병 상태
circadian rhythm
microbiome 차이

👉 연구자가 찾고 싶은 진짜 신호

✔ Analytical variation (분석 변이)

sample preparation 오차
extraction efficiency 차이
LC retention time drift
MS sensitivity fluctuation
batch effect
ion suppression / matrix effect

👉 제거하거나 보정해야 할 기술적 노이즈

2. 가장 먼저 확인해야 할 질문

실무에서는 항상 이 질문부터 시작한다.

❓ 질문 1

QC sample은 얼마나 안정적인가?

QC RSD < 15% → 분석 시스템 안정
QC RSD > 30% → 분석 변이 지배

👉 QC가 흔들리면 biological 해석은 의미 없음.

❓ 질문 2

Batch 간 drift가 존재하는가?

PCA에서 batch별 clustering 발생
injection order에 따라 intensity 변화

👉 batch effect = 분석 변이

3. 실전 구분 전략: 5단계 접근법

Step 1. QC 기반 변이 분해 (Variance decomposition)

방법

QC 샘플 반복 주입
feature별 RSD 계산

해석

상황	해석
QC RSD 낮음, sample 변이 큼	biological signal 가능
QC RSD 높음	analytical noise

👉 QC는 분석 변이의 ‘기준선’이다.

Step 2. PCA에서 QC의 위치 확인

이상적인 패턴

QC 샘플이 하나의 cluster 형성
실제 샘플은 그룹별 분리

👉 분석 시스템 안정 + biological 차이 존재

위험한 패턴

QC가 퍼져 있음
batch별 cluster 형성

👉 분석 변이가 biological 신호를 덮음

Step 3. Injection order vs intensity correlation

분석 방법

feature intensity vs injection order regression

해석

패턴	의미
시간에 따라 감소	MS sensitivity drift
saw-tooth 패턴	batch effect
무작위	biological 가능

👉 시간 의존 패턴 = 분석 변이의 대표적 특징

Step 4. Mixed-effect 모델로 변이 분리

고급 분석에서는 통계 모델을 활용한다.

모델 구조

Intensity ~ Group (biological) + Batch (analytical) + Residual

결과 해석

Batch effect > Group effect → 분석 변이 지배
Group effect 유지 → biological signal 존재

👉 실제 biomarker discovery에서 매우 중요

Step 5. Feature filtering 전략

분석 변이를 줄이기 위한 표준 접근:

필터링 기준

QC RSD > 30% 제거
blank 대비 signal < 3배 제거
missing rate > 20% 제거

👉 기술적 노이즈 제거 후 biological 해석

4. 자주 발생하는 오해

❌ 오해 1: 통계적으로 유의하면 biological이다

→ p-value는 분석 변이를 구분하지 못함

❌ 오해 2: fold change가 크면 의미 있다

→ ion suppression만으로도 fold change 발생 가능

❌ 오해 3: PCA separation = biological difference

→ batch effect로도 완벽한 separation 가능

5. 실제 사례: 완전히 잘못된 biomarker 발견

상황

disease vs control PCA separation 명확
120개 feature 유의

문제 발견

batch별로 disease/control 분리되어 주입됨
QC drift 존재

결론

👉 biomarker 전부 batch effect

이 사례는 실제 metabolomics에서 매우 흔하다.

6. Biological vs Analytical 변이의 핵심 차이

특징	Biological variation	Analytical variation
QC에서 나타나는가	❌	✔
시간 의존성	❌	✔
batch 의존성	❌	✔
재분석 시 재현	✔	❌
보정 가능성	낮음	높음

7. 실무자가 기억해야 할 핵심 원칙

원칙 1

QC가 흔들리면 해석을 멈춰라

원칙 2

batch effect는 발견되는 것이 아니라 설계로 예방된다

randomized injection order
QC every 5–10 injections
pooled QC 사용

원칙 3

통계 분석 전에 분석 변이를 제거하라

통계는 노이즈를 제거하지 못한다.
단지 노이즈 위에서 계산될 뿐이다.

8. 결론: 구분이 아니라 “증명”의 문제다

생물학적 변이와 분석 변이를 구분하는 것은
단순한 데이터 해석 문제가 아니다.

👉 이것은 데이터 신뢰성을 증명하는 과정이다.

좋은 metabolomics 연구는 이렇게 말할 수 있어야 한다:

“이 차이는 기기 때문이 아니라, 생물학 때문이다.”

728x90

'제약산업' 카테고리의 다른 글

Shotgun Proteomics에서 재현성이 무너지는 진짜 이유 (0)	2026.03.10
대사체 연구에서 Negative Result가 더 중요한 이유 (0)	2026.03.09
Metabolomics에서 QC sample이 통과해도 결과를 믿기 어려운 이유 (0)	2026.03.08
Batch effect가 결과 해석을 어떻게 왜곡하는가 (1)	2026.03.07
같은 샘플인데 다른 metabolite profile이 나오는 이유 (0)	2026.03.05
LC-MS 분석 조직이 규모가 커질수록 반드시 망가지는 지점들 (0)	2026.03.04
Cancer metabolomics에서 재현성이 특히 어려운 이유 (0)	2026.03.02
TDM 데이터에서 ‘통계적 유의성’이 임상적으로 무의미해지는 순간 (0)	2026.03.01

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰