티스토리 뷰

728x90

 

메타볼로믹스 데이터를 오래 다루다 보면, 결국 ‘정량 기술’보다 ‘디컨볼루션(deconvolution)’이 성능을 좌우하는 상황을 자주 맞닥뜨리게 된다. 특히 LC-MS/MS 기반 metabolomics는 chromatographic separation이 충분하지 않거나, high-matrix sample을 다루는 경우, 혹은 isobar/isomer가 공존하는 경우에 피크가 겹치고, tailing 되고, baseline이 흔들리고, noise가 과증가하는 문제를 피하기 힘들다.
문제는 이 피크들이 실제 biological 변화와 무관하게, 소프트웨어의 peak picking/peak grouping/peak alignment 단계에서 분석자에게 false interpretation을 강요한다는 점이다.

최근 몇 년간 이 피크 문제를 해결하기 위해 등장한 게 바로 AI-assisted peak deconvolution이다. 기존 알고리즘(peak shape 기반 모델링, curve fitting, wavelet transform 등)의 한계를 machine learning 혹은 deep learning이 보완하는 흐름이다. 아래에서는 실험자는 왜 이런 기술을 필요로 하게 되었는지, 어떤 종류의 AI 모델이 실질적으로 도움이 되는지, 그리고 국내 제약사 분석팀 관점에서 “현장에 바로 가져다 쓸 수 있는 적용 전략”을 중심으로 정리해본다.

1. 피크 디컨볼루션이 필요한 이유: LC-MS/MS metabolomics의 구조적 한계

LC-MS/MS는 구조적으로 GC-MS에 비해 co-elution 가능성이 높다. 그 이유는 분리 메커니즘이 한정적이기 때문이다. 특히 metabolomics와 같이 극성 대사체, isomeric metabolite, short retention time compound들을 다루면 문제가 더 심해진다.

1-1. Co-eluting metabolites

  • phospholipid와 small polar metabolite의 RT overlap
  • SCFAs의 짧은 RT 구간에서의 peak merging
  • bile acid isomers의 구분 실패

이런 피크 중첩은 quantitation bias를 유발하는데, 문제는 LC 조건을 손대지 않고는 해결이 어려울 때가 많다는 점이다.

1-2. Matrix ion suppression

High matrix(혈장·소변·tissue extract)에서는 ion suppression이 특정 RT 지점에 집중되는 패턴이 발생한다. 이 경우 baseline이 불안정해지면서 peak boundary 설정이 흔들리고, 결국 intensity miscalculation이 일어난다.

1-3. Noise 증가 및 small peak detection 실패

Low-abundance metabolite(특히 rare disease biomarker, immunometabolite, TCA cycle intermediate 등)의 경우 피크 형태가 거의 도표상의 ‘언덕’ 수준이다. 이때 smoothing 또는 baseline subtraction 과정을 지나면 peak 자체가 사라지기도 한다.

즉, LC-MS는 너무나 좋은 플랫폼이지만, sampling noise와 chromatographic 비완전성을 100% 해결하지 못한다. 결국 해결책은 피크 문제를 ‘사람의 손’이 아니라 알고리즘으로 해결하는 방향이 되어야 한다.

2. AI-assisted deconvolution: 기존 알고리즘 대비 왜 유리한가

AI 기반 피크 디컨볼루션이 좋은 점은 단순하다.
→ 사람이 정의한 “피크의 형태” 규칙에 의존하지 않고, 실제 데이터를 학습한 모델이 패턴을 인식한다는 것.

2-1. 머신러닝 기반

일반적인 ML 기반 방법은 다음과 같은 전략을 쓴다.

  • Random Forest / Gradient Boosting
    • 피크의 slope, width, asymmetry, signal-to-noise 등을 feature로 삼아
      “진짜 피크인지 잡음인지”, “분리 가능한 피크인지”를 예측
  • SVM 기반 peak classification
    • 중첩 피크 여부를 결정하는 데 의외로 성능이 좋음
  • HMM(Hidden Markov Model)
    • Time series로 취급해 signal 확률을 평가

이런 방식은 피크의 형태를 정형화하려는 기존 소프트웨어보다 **경계 조정(boundary adjustment)**에서 훨씬 세밀하다.

2-2. 딥러닝 기반

최근에는 CNN/RNN 기반 모델들이 등장하고 있고, 이들은 raw chromatogram을 이미지 또는 sequence로 인식한다.

  • CNN 기반: LC-MS 데이터를 2D 이미지처럼 처리하여 overlapped peak 분리
  • U-Net 기반 segmentation: chromatographic 영역을 segmentation task로 인식
  • RNN/LSTM 기반: signal이 시간 방향으로 이어진 sequence라는 점을 활용

딥러닝 기반 접근이 좋은 이유는, 예전처럼 peak fitting을 하지 않아도 되기 때문이다.
raw data → 모델 → 분리된 피크로 바로 나올 수 있다.

3. Deep learning deconvolution의 실제 작동 방식

아래는 일반적인 workflow를 개략적으로 정리한 것.

3-1. Preprocessing

  • noise reduction
  • retention time normalization
  • intensity scaling

3-2. Model input

  • raw XIC
  • smoothed XIC
  • combined MS1 + MS/MS intensity pattern

3-3. Peak segmentation

U-Net 또는 변형 convolution network가
“여기가 피크의 시작, 여기가 끝, 여기서 두 개가 겹쳐 있음”
을 pixel 단위로 판단한다.

3-4. Deconvolution logic

겹친 영역을 분리할 때는 보통 다음 중 하나를 사용한다.

  • Gaussian mixture modeling + AI boundary
  • Learned shape library 적용
  • MS/MS fragment ion 패턴 분리를 병행

이 결과, 기존 시스템에서는 하나의 뭉친 피크로 보이던 게 AI 모델에서는 명확히 두 개로 갈라진다.

3-5. Quantification

분리된 피크별로 AUC 계산 → statistical analysis → pathway analysis로 연결된다.

4. 실제 분석실에서 겪는 문제를 AI로 해결하는 사례

4-1. SCFA 분석 (Acetate / Propionate / Butyrate)

SCFA는 RT가 매우 짧고 서로 붙어 있어서 전통적인 peak picking 툴은 종종 하나의 blob으로 분류한다.
AI 모델을 학습시키면 RT와 peak width가 비슷해도 fragment ion pattern을 기반으로 분리를 할 수 있다.

4-2. Bile acid isomers

taurine-conjugated bile acid 등은 isobaric·isomeric 구조가 많아서 MS/MS 기반 deconvolution이 필수적이다.
Deep learning 기반 모델은 MS/MS 스펙트럼의 subtle difference를 반영해 isomer 간 boundary를 재조정해준다.

4-3. Inflammation biomarker (kynurenine pathway metabolite)

저농도이며 비대칭 peak가 흔한데, noise 증가 시 conventional software는 거의 pick하지 못한다.
AI-assisted model은 local shape variation을 학습하기 때문에 small peak detection accuracy가 크게 올라간다.

5. 국내 제약사·분석팀 관점에서의 실전 적용 전략

국내 분석팀에서 AI 기반 deconvolution을 직접 구축하려면 아래 기준을 고려해야 한다.

5-1. 언제 AI 도입이 가장 효과적인가

(1) Low-volume plasma 분석 시

  • 소아·고령 환자 샘플처럼 volume이 적을 때 S/N이 떨어져 피크 형태가 매우 불안정해진다.
  • 전통적 peak picking이 실패하는 zone이 많기 때문에 AI 적용 효과가 큼.

(2) Untargeted metabolomics

  • feature 수천 개에서 manual curation은 불가능
  • AI peak quality scoring을 적용하면 FA(Feature Artifact) 제거 속도가 월등히 빨라짐

(3) 지방산·인지질·콜레스테롤 유도체 등 lipidomics

  • co-elution과 in-source fragmentation이 반복적으로 발생
  • 딥러닝 기반 deconvolution이 특히 유용

5-2. 모델 도입 시 체크해야 할 기술 요소

① Mass resolution

Orbitrap/TOF 기반 고해상도 데이터일수록 AI가 학습할 여백이 많다.

② LC reproducibility

RT drift가 크면 AI boundary prediction이 흔들리므로
column aging, system pressure shift 등을 먼저 안정화해야 한다.

③ Training dataset 확보

자체적인 검증 세트를 확보해야 모델의 generalization이 보장된다.

④ SOP와 연계 가능성

국내 제약사는 SOP 기반으로 움직이기 때문에
AI 모델 output은 내부 기준(peak quality index, boundary variance, SN threshold)으로 수치화해서 기록해야 한다.

6. AI 기반 deconvolution 플랫폼 비교 (실제 사용 경험 기준)

 

플랫폼 장점 단점
MS-DIAL + Deep Learning plug-in 무료, untargeted metabolomics에 강함 peak boundary tuning은 다소 제한적
XCMS + AI 확장 패키지 R 기반 확장성, 연구용으로 유리 속도가 느리고 연구자 경험 필요
Compound Discoverer + AI module 상용 지원, lipidomics에 강함 비용 부담 큼
Vendor AI 솔루션 (SCIEX / Agilent / Thermo) 장비와 최적화된 알고리즘 장비 교체 시 호환성 낮음

7. 분석팀에서 실제로 구축하는 운영 프로토콜 예시

아래는 현실적으로 바로 적용할 수 있는 workflow다.

Step 1. Raw data QC

  • noise spike 검증
  • RT drift monitoring
  • column pressure trend check

Step 2. AI preprocessing

  • smoothing & RT normalization
  • signal variance quantification

Step 3. Peak detection (AI-assisted)

  • deconvolution model 적용
  • peak boundary confidence score 계산

Step 4. Human–AI hybrid curation

  • AI가 분리한 피크 중 boundary score가 낮은 경우만 사람이 검토
  • manual 검토 시간을 약 70% 절감

Step 5. Statistical validation

  • AUC variance
  • intra-day, inter-day reproducibility
  • matrix effect 보정 여부 검증

8. 최종 정리: AI-assisted deconvolution은 “필수 기술”로 자리 잡을 것

메타볼로믹스는 LC-MS 기반 오믹스 분석 중 가장 피크 해석 난도가 높은 분야다.
이제는 단순 peak picking 알고리즘만으로는 제대로 된 정량·정성 분석이 어려운 수준까지 왔다.

AI 기반 deconvolution은
복잡한 peak shape → 분명한 metabolite feature
로 전환해 주는 기술이고,
특히 다음과 같은 상황에서 큰 차이를 만든다.

  • co-eluting metabolite가 많을 때
  • S/N가 낮은 샘플을 다룰 때
  • untargeted feature가 수천 개 이상일 때
  • lipidomics/SCFA/bile acid처럼 isomer가 많은 분석에서

국내 제약사 분석팀의 관점에서 보면
“데이터 처리 자동화 + 인력 의존도 감소 + 분석 reproducibility 향상”
이라는 세 가지 측면에서 도입할 가치가 충분하다.

 

AI-assisted peak deconvolution – 복잡한 metabolomics 데이터의 자동화 해석
AI-assisted peak deconvolution – 복잡한 metabolomics 데이터의 자동화 해석

728x90