티스토리 뷰

728x90

 

서론: 단일 오믹스에서 다중 오믹스로

지난 20년간 생명과학 연구는 오믹스(omics) 혁명이라고 불릴 만큼 눈부시게 발전했습니다. 유전체학(genomics), 전사체학(transcriptomics), 단백체학(proteomics), 대사체학(metabolomics), 에피지놈(epigenomics) 등 다양한 층위의 데이터가 축적되면서, 우리는 질병의 복잡한 분자 네트워크를 점점 더 세밀하게 이해할 수 있게 되었습니다.

하지만 실제 임상에 적용하기 위해서는 문제 하나가 남아 있습니다.

  • 각 오믹스 데이터는 부분적 정보만 제공합니다.
  • 유전체는 잠재적 가능성을 보여주지만, 실제 발현은 전사체/단백체가 반영합니다.
  • 대사체는 가장 downstream에서 실제 생리적 상태를 보여주지만, 원인적 기전을 설명하기는 어렵습니다.

따라서 multi-omics 통합이 필수적이며, 여기서 AI 기반 데이터 통합 전략이 강력한 도구로 떠오르고 있습니다.


1. Multi-omics 데이터의 특징과 도전 과제

1-1. 데이터의 이질성(heterogeneity)

  • Genomics: SNPs, CNVs, somatic mutations (discrete data)
  • Transcriptomics: RNA-seq, expression levels (continuous, count data)
  • Proteomics: MS-based protein abundance (semi-quantitative)
  • Metabolomics: LC-MS/MS 기반 농도 정량 (absolute/relative concentration)

이처럼 각 데이터의 규모, 분포, 해상도가 모두 다르기 때문에 단순 통합은 불가능합니다.

1-2. 고차원 vs 저차원 불균형

  • 유전체 데이터: 수십만 개 변수
  • 대사체 데이터: 수백 개 변수
    데이터 규모의 차이가 크기 때문에 모델링 시 bias 발생 가능성이 높습니다.

1-3. 샘플 크기 제한

임상 시료는 제한적이며, 오믹스 데이터는 비용이 높아 sample size가 작습니다. 따라서 overfitting 방지 전략이 필수적입니다.

 


2. Multi-omics 통합 전략: 분석 수준별 접근

2-1. Early integration (feature-level integration)

  • 모든 오믹스 데이터를 하나의 matrix로 합쳐 분석
  • 장점: 단일 모델로 학습 가능
  • 단점: feature scaling, noise 증가, 데이터 차원 문제

2-2. Intermediate integration (representation-level)

  • 각 오믹스에서 latent features 추출 후 통합
  • PCA, autoencoder, variational autoencoder(VAE) 활용
  • 장점: 노이즈 줄이고 공통 패턴 포착

2-3. Late integration (decision-level integration)

  • 각 오믹스별 예측 모델 독립적으로 학습 후 meta-model에서 결과 통합
  • 장점: interpretability 높음
  • 단점: cross-talk 반영 어려움

 


3. AI 알고리즘 기반 Multi-omics 모델링

3-1. 머신러닝 기반

  • Random Forest, XGBoost: 중요 변수(feature importance) 산출 용이
  • SVM: 고차원 데이터에 강점
  • Elastic Net, LASSO: feature selection

3-2. 딥러닝 기반

  • Autoencoder: 비선형 feature 압축
  • Graph Neural Network (GNN): pathway network 반영
  • Multi-modal deep learning: 서로 다른 오믹스 modality 동시 학습

3-3. AI 기반 통합 모델의 장점

  • 데이터 간 상호작용(cross-omics interaction) 포착 가능
  • hidden layer representation을 통해 disease-specific signature 발견

 


4. LC-MS/MS 기반 Metabolomics의 핵심 역할

대사체학은 multi-omics에서 phenotype에 가장 근접한 층위로 평가됩니다.

  • PK/PD 연결: 약물 대사체 정량 (LC-MS/MS MRM 방식)
  • 질병 바이오마커: 특정 아미노산, lipid profile, oncometabolite (예: 2-HG)
  • 면역대사체학: lactate, kynurenine 같은 면역억제 대사체

AI-driven multi-omics 모델에서 대사체 데이터는 임상 예측의 최종 readout으로 활용되며, genomics/transcriptomics 신호를 보정하는 역할을 합니다.


5. 실제 응용 사례

5-1. 암 환자 면역치료 반응 예측

  • 데이터: Whole-exome sequencing + RNA-seq + LC-MS/MS metabolomics
  • AI 모델: Variational autoencoder + Random Forest classifier
  • 결과:
    • TCR diversity (genomics) + glycolysis signature (transcriptomics) + lactate/kynurenine ratio (metabolomics) → 반응성 예측 AUC 0.94

5-2. 약물 독성 예측

  • 데이터: Rat liver transcriptome + serum metabolome
  • 알고리즘: Elastic Net regression
  • 발견: 미토콘드리아 손상과 관련된 acylcarnitine 축적 + 특정 유전자 발현 연계 → early toxicity biomarker

5-3. Drug repositioning

  • 데이터: Public transcriptomics (TCGA) + cell line metabolomics (LC-MS/MS)
  • 모델: Deep learning 기반 clustering
  • 결과: 기존 당뇨병 약물(Metformin)의 항암 효과 후보 pathway 제시

6. 국내외 제약/연구소 동향

  • 국내: 유한양행, 삼성바이오로직스 등은 PK/PD 모델링에 LC-MS/MS 기반 대사체 데이터를 적극 활용 중. 일부 연구팀은 multi-omics + AI 기반 항암제 반응 예측 플랫폼을 개발 중.
  • 해외: Novartis, Genentech, BMS 등은 multi-omics clinical trial을 통해 환자 선별 및 companion diagnostics 개발.
  • 학계: Broad Institute, MD Anderson 등에서 AI-driven integrative omics 연구 활발.

7. 가상의 예시 데이터

 

환자군 Mutation load Transcriptomic glycolysis score Lactate (µM) TCR diversity index 예측 반응성
A (Responder) High Low 1.2 2.4 Positive
B (Responder) Medium Low 0.9 2.2 Positive
C (Non-responder) Low High 5.1 1.1 Negative
D (Non-responder) Low High 6.0 1.0 Negative

AI 통합 모델은 단일 오믹스 지표보다 훨씬 높은 예측 정확도를 보여줍니다.


8. 기술적 과제와 향후 전망

8-1. 과제

  • Cross-platform batch effect 제거
  • Multi-omics 데이터 표준화 부족
  • 소규모 임상 데이터에서 overfitting 방지

8-2. 향후 방향

  • Single-cell multi-omics: scRNA-seq + single-cell metabolomics 통합
  • Spatial omics: 공간 분포 반영 (spatial metabolomics + spatial transcriptomics)
  • AI + Digital twin: 환자-specific virtual model 구축 → 임상 trial 시뮬레이션

결론

AI-driven multi-omics data integration은 더 이상 이론적 가능성이 아니라, 실제 임상 적용을 향한 핵심 전략으로 자리 잡고 있습니다. 특히 LC-MS/MS 기반 대사체 데이터는 환자의 실제 생리적 상태를 반영하기 때문에, 유전체/전사체 데이터와 결합하면 약물 반응 예측, 독성 조기 탐지, drug repositioning 등에서 막대한 잠재력을 발휘합니다.

앞으로는 AI와 multi-omics의 결합이 개인 맞춤형 정밀의학을 실현하는 가장 중요한 도구가 될 것입니다.

 

AI-driven Multi-omics Data Integration – 임상 예측 모델 구축 전략
AI-driven Multi-omics Data Integration – 임상 예측 모델 구축 전략

 

728x90