티스토리 뷰

728x90

 rule 기반 판단에서 ‘패턴 이해’로의 이동

Foundation model이 LC-MS 데이터 해석을 바꾸는 지점
Foundation model이 LC-MS 데이터 해석을 바꾸는 지점

1️⃣ 기존 LC-MS 해석의 출발점: “이 피크는 무엇인가?”

전통적인 LC-MS 해석은 항상 단일 질문에서 시작합니다.

  • 이 피크의 m/z는 무엇인가
  • RT가 맞는가
  • fragment가 reference와 일치하는가
  • library hit score가 기준을 넘는가

즉, 해석의 구조는 늘 이랬습니다.

관측 → 기준 대조 → 일치 여부 판단

이 방식은 정확하지만, 근본적인 한계를 갖습니다.

2️⃣ 기존 방식의 구조적 한계 (annotation bottleneck의 본질)

① reference가 없는 것은 해석 불가

  • novel metabolite
  • unexpected fragment
  • in-source fragmentation
  • matrix-specific adduct

“모르겠다”로 끝남

② 피크 하나씩만 본다

  • 같은 run 안의 맥락 무시
  • 다른 샘플과의 연관성 무시
  • pathway, biology, chemistry 연결 없음

③ 판단 기준이 사람의 경험에 묶인다

  • “이건 이상해 보인다”
  • “예전에 비슷한 걸 본 적 있다”
  • SOP로 고정 불가

이 지점에서 Foundation model이 들어옵니다.

3️⃣ Foundation model의 핵심 차이: “피크를 보지 않는다”

Foundation model은 개별 피크를 먼저 보지 않습니다.

대신 다음을 먼저 학습합니다.

  • MS/MS fragmentation의 분포
  • m/z 간 관계
  • fragment 패턴의 조합 구조
  • RT, adduct, ionization condition의 공동 변화

즉, 질문이 바뀝니다.

❌ “이 피크는 무엇인가?”
✅ “이 데이터는 어떤 화학적·통계적 패턴에 속하는가?”

 

4️⃣ 해석 패러다임이 바뀌는 첫 번째 지점:

“Identification 이전에 ‘이해’가 생긴다”

기존:

  • identification → annotation → interpretation

Foundation model 이후:

  • pattern recognition → hypothesis → identification

예를 들면:

  • 이 스펙트럼은
    “지질성 backbone + 산화 변형 가능성”
  • 이 fragment 조합은
    “아미노산 유도체 계열과 구조적으로 유사”
  • 이 샘플군에서만 나타나는 패턴은
    “biological condition-linked signal”

👉 이름을 모르는데도 의미를 말할 수 있게 된다

이게 첫 번째 붕괴 지점입니다.

5️⃣ 두 번째 변화 지점: Annotation confidence의 기준 이동

기존 annotation confidence는 이렇게 구성됩니다.

  • mass accuracy
  • RT tolerance
  • library score
  • match / no-match

Foundation model은 질문을 이렇게 바꿉니다.

  • 이 스펙트럼이 학습된 화학 공간에서 얼마나 자연스러운가?
  • fragment 간 관계가 화학적으로 일관적인가?
  • noise가 아닌 구조적 패턴인가?

즉,

confidence = reference 일치도

confidence = 패턴 일관성 + 화학적 plausibility

이건 규제적으로도 완전히 다른 사고방식입니다.

6️⃣ 세 번째 변화 지점: “Unknown”의 정의가 사라진다

Foundation model 이후의 “unknown”은 더 이상

“아무것도 모르는 것”

이 아닙니다.

대신 이렇게 바뀝니다.

  • 구조 class는 추정 가능
  • functional group 가능성 제시
  • fragment 생성 메커니즘 설명 가능
  • biological relevance 가능성 제시

즉,

unknown compound → partially explained entity

이게 metabolomics에서 말하는
annotation bottleneck 붕괴의 실체입니다.

7️⃣ LC-MS/MS 해석 workflow 자체가 바뀐다

기존 workflow

 
Raw data → peak picking → library search → hit / no hit → manual review

Foundation model 기반 workflow

 
Raw data → spectral embedding → pattern clustering → hypothesis generation → targeted confirmation

여기서 중요한 포인트:

  • manual review는 사라지지 않는다
  • review의 대상이 “피크”가 아니라 “가설”이 된다

8️⃣ 왜 이 변화는 automation보다 위험하고 강력한가

Automation은 실패하면 멈추면 됩니다.
하지만 해석 기준의 변화는 되돌릴 수 없습니다.

QA / audit 관점에서 이 질문이 반드시 나옵니다.

“이 해석은 어떻게 설명 가능한가?”

그래서 Foundation model이 LC-MS에서 살아남으려면
Explainability가 필수가 됩니다.

9️⃣ Explainable foundation model이 요구하는 최소 조건

  • 어떤 fragment 관계가 판단에 기여했는가
  • reference 없이 어떻게 plausible하다고 말하는가
  • training data의 화학적 범위는 어디까지인가
  • 사람이 검증 가능한 중간 표현이 존재하는가

👉 이걸 설명 못 하면
규제 환경에서는 ‘black magic’이 됩니다.

1️⃣0️⃣ 정리하면, 바뀌는 지점은 이 세 가지다

1️⃣ Identification 이전에 해석이 시작된다
2️⃣ Confidence의 기준이 ‘match’에서 ‘일관성’으로 이동한다
3️⃣ Unknown이 ‘설명 불가능’에서 ‘부분적으로 이해된 상태’로 바뀐다

마지막 문장

Foundation model은 LC-MS 데이터를 더 빨리 분석하지 않는다.
대신,
“무엇을 안다고 말할 수 있는가”의 경계를 다시 그린다.

728x90