티스토리 뷰
분석팀 실무자 관점에서 정리한 실제 적용 가능한 통계 전략
질병 진행(disease progression)을 추적할 바이오마커를 찾는 일은 제약사와 의료 현장에서 모두 핵심 과제다. 특히 암, 대사질환, 신경계질환, 면역질환처럼 진행 속도가 일정하지 않거나 환자마다 반응이 서로 다른 경우, 바이오마커 기반의 정량적 지표는 임상적 의사결정과 신약 개발 방향에 직접적인 영향을 준다.
최근에는 LC-MS/MS, HRMS 기반의 metabolomics 분석이 이러한 바이오마커 발굴의 전면에 등장하고 있다. 대사체는 세포 내 대사 흐름, 염증 변화, 에너지 요구량, 스트레스 반응을 즉시 반영하기 때문에 질병 상태의 “지금 여기(now)”를 가장 민감하게 포착할 수 있기 때문이다.
하지만 metabolomics 데이터는 고차원(high-dimensional), 비정규적(non-normal), batch effect가 심하고, matrix 차이에 민감하며, 개체 변이가 큰 특성이 있다. 따라서 연구자는 통계적 workflow를 잘 짜지 않으면 의미 있는 신호가 묻히고 잘못된 결론을 도출하기 쉽다.
이 글에서는 실제 제약사 분석팀과 연구자가 사용할 수 있는 Disease Progression Biomarker 발굴용 metabolomics 통계 workflow를 단계별로 정리해본다.
1. 데이터 특성 이해부터 시작하기
Metabolomics 데이터는 크게 두 가지 방식으로 생성된다.
- Untargeted metabolomics – 수천~수만 개의 feature 생성
- Targeted metabolomics – 30~500개 패널 기반 정량 데이터
질병 진행을 추적할 때는 주로 두 가지가 혼합된다.
즉, Untargeted로 후보(feature-level)를 찾고
Targeted로 validation하는 방식이다.
이를 염두에 두고 workflow를 구성해야 한다.
2. Sample QC 및 Batch Effect 점검
질병 진행 바이오마커는 작은 변화도 의미 있게 다뤄야 한다.
따라서 QC 관리는 workflow의 출발점이다.
2.1 Raw data QC 체크포인트
- Peak shape
- Retention time shift
- Internal standard intensity
- Mass accuracy
- Background noise 증가 여부
QC rejection 기준을 지나치게 느슨하게 두면 downstream 통계 분석이 모두 흔들린다.
2.2 Batch effect 평가
Batch effect는 disease progression 연구에서 특히 문제다.
왜냐하면 시점(time-series) 데이터가 필수적이기 때문이다.
사용하는 방법:
- PCA plot에서 QC clustering 확인
- RSD % 평가 (30% 이하 권장)
- Batch별 signal intensity distribution 비교
Batch effect가 크면 ComBat, RUV, EigenMS 같은 정규화 기법이 필수다.
3. Normalization & Scaling 전략
질병 진행 바이오마커는 절대농도 변화뿐 아니라 대사 흐름 패턴도 중요하다.
다음과 같은 normalization이 많이 쓰인다.
3.1 Normalization 방법
- Total area normalization
- Internal standard normalization (IS-based)
- Probabilistic quotient normalization (PQN)
- Median fold change normalization
질병 진행 연구에서는 PQN이 유용한 경우가 많다.
3.2 Scaling 방법
- Pareto scaling
- Unit variance scaling (UV)
- Log transformation
특히 partial least squares regression(PLS) 기반 모델을 만들 때는 scaling이 성능에 영향을 준다.
4. Feature Selection – 진짜 신호 찾기
질병 진행을 설명하는 핵심 feature를 찾기 위한 단계다.
여기서 중요한 점은
“Feature 선택 → 모델 구축”이 아니라,
“질문 기반 Feature 선택 → 생물학적 해석 → 모델 구축” 순서라는 것이다.
4.1 기본 통계 기반 선택법
- t-test / Mann-Whitney U-test
- 질병 단계(Stage I vs Stage II 등) 간 차이 분석
- ANOVA / Kruskal-Wallis
- 다군 비교
- Trend test for progression
예: Jonckheere–Terpstra test
질병이 진행할수록 대사체 농도가 단조증가/감소하는지 - Correlation 분석
- 질병 지표(예: eGFR, tumor burden)와 metabolite correlation
4.2 Multivariate 기반 선택법
✔ PCA
데이터 구조 파악용
시점별 progress pattern 확인 가능
의미 있는 축에서 분리되는 feature 탐색
✔ PLS-DA / OPLS-DA
- VIP score 기반 feature ranking
- Progression group classification 모델 생성
VIP > 1.0 또는 1.2 기준으로 feature를 추린다.
단, 모델 overfitting 가능성이 있으므로 permutation test 필수.
4.3 Machine Learning 기반 선택법
✔ Random Forest
- Feature importance 활용
- Non-linear feature detection 가능
- Batch 영향에 덜 민감
✔ XGBoost / CatBoost
- 질병 단계 예측 정확도 향상
- SHAP value 기반 feature 해석 가능
ML 기반 feature selection은
진행 단계(early, intermediate, late)를 classification할 때 매우 유용하다.
5. Biomarker 후보 선정을 위한 통계 모델 구축
Feature selection으로 추려낸 후보들은
이제 실제로 질병 진행 예측에 유효한지 검증해야 한다.
5.1 Regression 기반 진행 예측 모델
질병 진행의 연속적 지표가 있는 경우 활용:
- eGFR (신장질환)
- Fibrosis score (간질환)
- Tumor volume (암)
사용 모델:
- Linear regression
- Elastic Net
- LASSO regression
- PLS regression
Elastic Net은 multicollinearity가 클 때 강력하다.
5.2 Classification 기반 모델
질병 단계(stage)를 예측해야 할 때 사용:
- Logistic regression
- SVM
- Random Forest
- XGBoost
Target metabolite 수가 많을 필요는 없다.
대개 10~20개 선택하면 충분히 높은 정확도를 낸다.
5.3 Time-series 기반 모델 (매우 중요)
질병 진행 바이오마커는 “경향(trend)”이 핵심이다.
다음 모델을 고려한다:
✔ Mixed-effect model
- 개체 간 변이를 고려
- Longitudinal data 분석에 최적화
✔ Generalized Estimating Equation(GEE)
- 시간에 따른 변화의 평균 패턴을 평가
✔ Functional data analysis(FDA)
- 시간 경로(time trajectory)를 통째로 모델링
✔ Hidden Markov Model
- 진행 단계를 latent state로 정의
- 암, 파킨슨병 등에서 활용 가능
이들 모델은 질병 진행을 “정적으로 한 번 측정하는 것이 아니라”,
“시간 흐름 전체를 대사체 변화로 모델링한다”는 점에서 매우 중요하다.
6. Biomarker Panel 구축하기
실제로 임상 적용을 위해서는
“하나의 지표”보다는 패널(panel) 형태가 훨씬 강력하다.
6.1 Metabolite panel 조합 전략
- 상보적인 pathway의 metabolite 3~10개 조합
- Correlation이 낮고 주요 질병 축을 대표하는 조합 선호
- Biological redundancy가 너무 높은 조합은 피함
예:
간섬유화 progression 패널이라면
AA → TCA → Urea cycle → lipid remodeling 경로를 아우르는 구성.
7. Validation 단계 – 가장 중요한 workflow 구간
7.1 Technical validation
- Reproducibility
- Linearity
- Matrix effect
- Stability 테스트
- QC sample 기반 CV ≤ 20%
7.2 Biological validation
- 독립 cohort 적용
- 다기관(sample source) 데이터 비교
- 전처리 차이, batch 영향 재평가
Validation 실패 원인의 60% 이상이 batch effect와 sampling difference이다.
8. Pathway 분석 – Disease progression 해석의 핵심
대사체끼리의 변화 패턴이 의미하는 바를 해석하는 단계다.
8.1 주요 pathway 분석 도구
- KEGG
- MetaboAnalyst
- MSEA(Metabolite Set Enrichment Analysis)
- Reactome
8.2 Disease progression 패턴 예시
암:
- Warburg effect 강화
- OXPHOS 감소
- Nucleotide metabolism 증가
신장질환:
- Uremic toxin 증가
- TCA cycle 물질 감소
- Arginine metabolism 변화
간질환:
- Lipotoxicity 관련 대사체 증가
- FAO 억제
- bile acid dysregulation
Pathway 분석은 임상적 해석의 언어를 만들어주는 단계다.
9. Biomarker의 임상 적용 가능성 평가
9.1 ROC curve
- AUC 0.8 이상이면 strong candidate
- Sensitivity vs Specificity 균형 점검
9.2 Net Reclassification Index(NRI)
- 기존 모델 대비 성능 향상 평가
9.3 Decision curve analysis
- 임상적 유용성 평가
이러한 지표는 regulatory submission 자료에도 포함 가능하다.
10. Disease progression biomarker 통계 workflow – 최종 요약
아래는 제약사 분석팀에서 그대로 사용할 수 있는 실제 workflow다.
[Disease Progression Biomarker Metabolomics Workflow]
1) Pre-processing
- QC 체크
- Batch effect 점검
- Normalization & scaling
2) Feature selection
- t-test/ANOVA
- Trend test
- Correlation analysis
- PLS-DA / VIP
- Random Forest / SHAP
3) Model building
- Regression: LASSO / Elastic Net
- Classification: RF / XGBoost
- Longitudinal: Mixed model / GEE
4) Panel 구성
- 비상관성 기반 조합
- Pathway 대표성 확보
5) Validation
- Technical validation
- Biological validation
6) Pathway Interpretation
- MetaboAnalyst
- KEGG pathway 구조 해석
7) Clinical Utility 평가
- AUC, NRI, DCA
- External cohort 적용
11. 국내 제약사 분석팀을 위한 최종 제안
- Untargeted + Targeted의 hybrid 전략이 가장 현실적
– discovery → validation 흐름 고정 - Batch effect 관리 능력이 biomarker 성공률을 좌우
– 장비 maintenance + QC 운영 체계 필수 - Longitudinal 모델링 역량 확보
– disease progression 연구의 핵심 역량 - Pathway 통합 해석 인력 필요
– 단순히 feature ranking만으로 biomarker 정의 불가 - AI 기반 feature selection 적극 도입
– SHAP 기반 해석 가능 모델이 향후 표준이 될 것

'제약산업' 카테고리의 다른 글
| Targeted vs. Untargeted Metabolomics: 제약사의 선택 기준 (0) | 2025.12.14 |
|---|---|
| LC Column Batch Variability 대응법 (0) | 2025.12.13 |
| Clinical Trial Sample 분석에서 Incurred Sample Reanalysis(ISR) 실패 원인 분석 (0) | 2025.12.12 |
| Derivatization 기반 분석 감도 개선 전략 (0) | 2025.12.11 |
| Isotopically Labeled Internal Standard의 선택 기준과 실제 적용 사례 (0) | 2025.12.10 |
| LC Gradient Delay Volume(GDV) 최소화로 Retention Time 안정성 확보하기 (0) | 2025.12.09 |
| Multi-Quantifier Ion을 활용한 정량 정확도 향상 전략 (0) | 2025.12.08 |
| Spray Stability 향상을 위한 Nano-ESI Emitter 최적화 기법 (0) | 2025.12.07 |
- Total
- Today
- Yesterday
- 약물분석
- 대사체 분석
- 면역항암제
- reproducibility
- 제약
- 미래산업
- 정량분석
- metabolomics
- 분석팀
- 임상시험
- 치료제
- 공급망
- 바이오마커
- AI
- Lipidomics
- LC-MS
- 디지털헬스케어
- 신약개발
- 팬데믹
- Stability-indicating method
- 약물 반응 예측
- 약물개발
- Multi-omics
- 제약산업
- Targeted Metabolomics
- Drug Repositioning
- lc-ms/ms
- 정밀의료
- 항암제
- 대사체분석
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
