티스토리 뷰

728x90

Metabolite identification이 아니라‘가설 생성 과정’으로 보는 metabolomics
Metabolite identification이 아니라‘가설 생성 과정’으로 보는 metabolomics

1. Metabolomics에서 identification이 어려운 구조적 이유

LC-MS 기반 untargeted metabolomics에서 검출되는 feature는 매우 많습니다.

일반적인 plasma metabolomics 데이터:

  • 검출 feature: 5,000–20,000개
  • 정확히 identification된 metabolite: 5–15%

즉 대부분의 신호는 unknown feature입니다.

이 현상이 발생하는 이유는 몇 가지가 있습니다.

1) metabolome의 다양성

Human metabolome에는 다음이 포함됩니다.

  • endogenous metabolite
  • microbiome metabolite
  • diet-derived compound
  • drug metabolite
  • environmental chemical

가능한 화합물 공간이 매우 넓습니다.

2) spectral library의 한계

현재 주요 MS/MS 라이브러리:

  • HMDB
  • MassBank
  • GNPS
  • METLIN

하지만 실제 metabolome의 상당 부분은 라이브러리에 존재하지 않습니다.

3) 구조 이성질체 문제

동일한 분자식이라도 구조가 다를 수 있습니다.

예:

C6H12O6

가능한 구조:

  • glucose
  • fructose
  • galactose

MS/MS만으로 완전히 구분하기 어려운 경우가 많습니다.

2. Identification 중심 연구의 함정

많은 metabolomics 연구가 다음 방식으로 진행됩니다.

1️⃣ feature detection
2️⃣ differential metabolite 분석
3️⃣ significant metabolite identification
4️⃣ pathway interpretation

문제는 3단계에서 대부분의 정보가 사라진다는 것입니다.

예를 들어:

  • 통계적으로 유의한 feature: 300개
  • identification 성공: 40개

👉 나머지 260개의 정보는 분석에서 제외

즉 데이터의 대부분이 버려집니다.

3. 새로운 관점: metabolomics는 “signal map”이다

최근 metabolomics에서는 다음 관점이 강조됩니다.

metabolomics 데이터는 화합물 목록이 아니라
생물학적 신호의 지도(signal map)이다.

즉 중요한 것은

  • 개별 metabolite 이름이 아니라
  • 패턴과 구조

입니다.

4. Feature 기반 가설 생성

Identification이 완벽하지 않아도 다음 질문은 할 수 있습니다.

예시

✔ 특정 pathway 관련 feature cluster 존재
✔ 특정 질병에서 공통적으로 변화하는 mass pattern
✔ 특정 isotope pattern 증가

이러한 패턴은 대사 경로 변화에 대한 가설을 만들 수 있습니다.

5. Molecular networking 접근

최근 metabolomics에서 많이 사용하는 방법입니다.

기본 개념:

  • MS/MS fragmentation 유사성 기반
  • metabolite 간 네트워크 구성

결과:

  • 구조적으로 유사한 화합물 cluster 발견
  • unknown metabolite도 기능적 그룹에 포함

이름을 모르는 metabolite도
어떤 화학적 패밀리에 속하는지 알 수 있습니다.

 

6. Pathway activity 중심 해석

Identification 중심 분석:

“어떤 metabolite가 변했는가?”

새로운 접근:

“어떤 metabolic activity가 변했는가?”

예:

  • glycolysis flux 증가
  • TCA cycle perturbation
  • lipid remodeling

이 경우 모든 metabolite를 정확히 알 필요는 없습니다.

7. 통계적 패턴에서 가설 생성

Metabolomics 데이터는 패턴 분석에 매우 적합합니다.

가능한 접근:

✔ PCA / clustering
✔ machine learning
✔ network analysis
✔ correlation structure

예:

  • 특정 metabolite cluster가 질병 severity와 상관
  • 특정 lipid group이 약물 반응과 연관

👉 이후 targeted experiment 설계 가능

8. Multi-omics와 결합될 때 더 강력해진다

Metabolite identification이 불완전하더라도
다른 omics와 결합하면 해석력이 높아집니다.

예:

Omics결과
Omics 결과
Transcriptomics fatty acid synthesis gene 증가
Proteomics lipid metabolism enzyme 증가
Metabolomics lipid-like feature 증가

👉 lipid metabolism 활성화 가설

이 경우 모든 metabolite 이름이 필요하지 않습니다.

 

9. Biomarker discovery에서의 의미

임상 biomarker 연구에서도 동일한 문제가 존재합니다.

실제로 중요한 것은:

  • 구조가 완전히 밝혀진 metabolite인가?
  • 질병 예측 능력이 있는가?

입니다.

예:

  • 특정 m/z feature panel
  • machine learning 기반 score

👉 구조 규명은 후속 단계로 진행 가능

10. Annotation bottleneck 이후의 metabolomics

최근 metabolomics 분야에서는 다음 변화가 나타나고 있습니다.

과거:

identify first → biology later

현재:

biology first → identification later

즉 metabolite identification은

  • 출발점이 아니라
  • 가설 검증 단계가 됩니다.

11. 실제 연구 워크플로우 변화

전통적 접근:

feature → identification → biology
 

새로운 접근:

feature → pattern → biological hypothesis

targeted identification
 

즉 identification은 필요할 때만 수행

12. AI와 metabolomics

최근 AI 기반 접근은 이 패러다임을 더욱 강화합니다.

가능한 분석:

  • feature pattern classification
  • disease prediction
  • metabolic state inference

이 과정에서 모든 metabolite 이름이 필요하지 않습니다.

13. 이 관점이 중요한 이유

Metabolomics 데이터를 이해하는 방식이 바뀝니다.

❌ “몇 개의 metabolite를 찾았는가?”
✔ “어떤 생물학적 패턴을 발견했는가?”

마무리

Metabolomics의 가장 큰 특징은
다른 omics보다 unknown signal이 많다는 점입니다.

하지만 이것은 단점이 아니라 오히려 장점일 수 있습니다.

왜냐하면 metabolomics 데이터는

이미 알려진 화합물 목록이 아니라
생물학 시스템의 상태를 반영하는 신호 공간이기 때문입니다.

따라서 metabolite identification은 연구의 끝이 아니라
가설을 검증하는 과정 중 하나가 됩니다.

728x90