티스토리 뷰

728x90

Metabolomics에서 annotation bottleneck은 기술 문제가 아니라 ‘해석의 한계’였다

Metabolomics는 언제나 데이터 생산 속도가 해석 속도를 앞질러 왔다.
LC-MS 성능은 해마다 좋아졌고, non-targeted 분석에서는 수천, 많게는 수만 개의 feature가 한 번의 실험에서 쏟아진다.
문제는 그다음이다.

분석가는 결국 몇 개의 peak 앞에 멈춰 선다.
통계적으로 가장 유의한 것들, fold change가 큰 것들, 그림이 예쁜 것들.
그리고 그중에서도 이름을 붙일 수 있는 것만 남긴다.

이 과정은 자연스럽지만, 동시에 잔인하다.
데이터의 대부분은 “이름이 없다는 이유”로 분석에서 탈락한다.
이게 바로 annotation bottleneck의 실체다.

중요한 점은, 이 병목이
라이브러리가 부족해서도,
MS/MS가 약해서도 아니라는 것이다.
근본적으로는 “이름이 없으면 해석할 수 없다”는 사고방식이 병목을 만들었다.

 

Metabolomics에서 annotation bottleneck 붕괴 시나리오
Metabolomics에서 annotation bottleneck 붕괴 시나리오


Annotation bottleneck 붕괴의 시작: ‘이름 중심 해석’의 붕괴

Annotation bottleneck이 무너진다는 것은
모든 metabolite의 정확한 구조가 밝혀진다는 뜻이 아니다.
오히려 그 반대에 가깝다.

“이름 없이도 해석이 가능하다”는 합의가 만들어지는 순간,
병목은 균열을 일으킨다.

Foundation model 기반 MS/MS 해석,
structure-aware embedding,
chemical similarity 기반 클러스터링은
공통적으로 한 가지 질문을 던진다.

“이 metabolite는 무엇인가?”가 아니라
“이 metabolite는 무엇과 비슷한가?”

이 질문의 전환이 굉장히 중요하다.
왜냐하면 생물학적 시스템은
개별 분자의 고유명사보다는
성격과 군집의 변화로 움직이기 때문이다.


시나리오 1: Annotation이 ‘단계적 정보’로 바뀐다

병목이 붕괴되는 첫 번째 시나리오는
annotation의 정의 자체가 바뀌는 것이다.

과거의 annotation은 이분법적이었다.

  • 동정됨 / 안 됨
  • 알려짐 / unknown

하지만 새로운 패러다임에서는
annotation이 단계적 정보로 제공된다.

예를 들면 이런 식이다.

  • 정확한 화학명은 불명
  • 하지만 endogenous metabolite일 가능성 높음
  • aromatic ring을 포함한 구조
  • oxidative stress 조건에서 일관되게 증가

이 정보는
“unknown metabolite”라는 한 줄보다
훨씬 많은 해석 가능성을 제공한다.

이 순간부터 bottleneck은
“멈춤 지점”이 아니라
“정보 밀도가 낮아지는 구간”으로 변한다.

 


시나리오 2: 통계 분석의 주인공이 ‘개별 피크’에서 ‘패턴’으로 이동한다

Annotation bottleneck이 존재할 때,
metabolomics 해석은 늘 개별 피크 중심이었다.

  • 이 metabolite가 왜 변했을까
  • 이 물질은 어떤 pathway에 속할까

하지만 annotation이 패턴 단위로 제공되기 시작하면,
질문도 자연스럽게 바뀐다.

  • 이런 구조적 성격의 metabolite들이 왜 동시에 변했을까
  • 이 cluster는 어떤 생리적 상태를 반영할까

즉, 해석의 단위가
compound → chemical phenotype으로 이동한다.

이 변화는 metabolomics를
“이름 맞히기 게임”에서
“시스템 변화 읽기”로 끌어올린다.


시나리오 3: ‘버려지던 feature’가 가설 생성의 출발점이 된다

과거에는 annotation이 안 된 feature는
논문에서 자연스럽게 사라졌다.
Figure에는 나오지 않고, discussion에도 등장하지 않는다.

하지만 bottleneck이 붕괴되면 상황이 바뀐다.

  • annotation confidence는 낮지만
  • 구조적으로 유사한 feature들이 군집을 이루고
  • 특정 조건에서만 강하게 반응한다면

이 feature들은
가설 생성용 신호가 된다.

“아직 이름은 없지만,
이 반응은 분명히 생물학적 의미가 있다.”

이 한 문장이 가능해지는 순간,
metabolomics의 탐색적 가치가 살아난다.


시나리오 4: Validation 전략이 달라진다

Annotation bottleneck이 강할수록
validation은 늘 한 방향이었다.

“이 metabolite를 표준물질로 확인하자.”

하지만 모든 metabolite에 대해
이 접근은 현실적으로 불가능하다.

병목이 붕괴된 이후에는
validation의 형태도 바뀐다.

  • 구조 유사 cluster 전체의 재현성 확인
  • isotope labeling으로 metabolic origin 검증
  • 다른 플랫폼(예: proteomics, transcriptomics)과의 패턴 일치 여부 확인

즉, validation의 대상이
개별 화합물이 아니라
해석 프레임 자체가 된다.


시나리오 5: Metabolomics 논문의 ‘한 문장’이 사라진다

아주 사소하지만 상징적인 변화가 있다.

“However, many features remain unidentified.”

이 문장은 annotation bottleneck의 상징이었다.
병목이 붕괴되면, 이 문장은 점점 설 자리를 잃는다.

대신 이런 문장이 등장한다.

“Although exact structures could not be assigned,
chemical class–level annotation revealed consistent shifts…”

이 차이는 단순한 문장 변화가 아니다.
metabolomics가 스스로를 설명하는 방식의 변화다.


결국 annotation bottleneck 붕괴의 핵심은 기술이 아니다

정리하면,
annotation bottleneck이 무너지는 이유는
AI가 똑똑해졌기 때문만은 아니다.

  • 이름 중심 해석에서 벗어나고
  • 불확실성을 정보로 다루기 시작하고
  • 패턴과 군집을 해석의 주인공으로 삼을 때

비로소 병목은 힘을 잃는다.

Metabolomics는 원래
“모든 것을 정확히 아는 분석”이 아니라
“변화를 가장 민감하게 감지하는 분석”이다.

Annotation bottleneck 붕괴는
이 분야가 자기 정체성을 되찾는 과정에 가깝다.

728x90