Foundation model이 LC-MS 데이터 해석을 바꾸는 지점

티스토리 뷰

제약산업

Foundation model이 LC-MS 데이터 해석을 바꾸는 지점

pharma_info 2026. 2. 25. 20:15

728x90

rule 기반 판단에서 ‘패턴 이해’로의 이동

1️⃣ 기존 LC-MS 해석의 출발점: “이 피크는 무엇인가?”

전통적인 LC-MS 해석은 항상 단일 질문에서 시작합니다.

이 피크의 m/z는 무엇인가
RT가 맞는가
fragment가 reference와 일치하는가
library hit score가 기준을 넘는가

즉, 해석의 구조는 늘 이랬습니다.

관측 → 기준 대조 → 일치 여부 판단

이 방식은 정확하지만, 근본적인 한계를 갖습니다.

2️⃣ 기존 방식의 구조적 한계 (annotation bottleneck의 본질)

① reference가 없는 것은 해석 불가

novel metabolite
unexpected fragment
in-source fragmentation
matrix-specific adduct

→ “모르겠다”로 끝남

② 피크 하나씩만 본다

같은 run 안의 맥락 무시
다른 샘플과의 연관성 무시
pathway, biology, chemistry 연결 없음

③ 판단 기준이 사람의 경험에 묶인다

“이건 이상해 보인다”
“예전에 비슷한 걸 본 적 있다”
SOP로 고정 불가

이 지점에서 Foundation model이 들어옵니다.

3️⃣ Foundation model의 핵심 차이: “피크를 보지 않는다”

Foundation model은 개별 피크를 먼저 보지 않습니다.

대신 다음을 먼저 학습합니다.

MS/MS fragmentation의 분포
m/z 간 관계
fragment 패턴의 조합 구조
RT, adduct, ionization condition의 공동 변화

즉, 질문이 바뀝니다.

❌ “이 피크는 무엇인가?”
✅ “이 데이터는 어떤 화학적·통계적 패턴에 속하는가?”

4️⃣ 해석 패러다임이 바뀌는 첫 번째 지점:

“Identification 이전에 ‘이해’가 생긴다”

기존:

identification → annotation → interpretation

Foundation model 이후:

pattern recognition → hypothesis → identification

예를 들면:

이 스펙트럼은
“지질성 backbone + 산화 변형 가능성”
이 fragment 조합은
“아미노산 유도체 계열과 구조적으로 유사”
이 샘플군에서만 나타나는 패턴은
“biological condition-linked signal”

👉 이름을 모르는데도 의미를 말할 수 있게 된다

이게 첫 번째 붕괴 지점입니다.

5️⃣ 두 번째 변화 지점: Annotation confidence의 기준 이동

기존 annotation confidence는 이렇게 구성됩니다.

mass accuracy
RT tolerance
library score
match / no-match

Foundation model은 질문을 이렇게 바꿉니다.

이 스펙트럼이 학습된 화학 공간에서 얼마나 자연스러운가?
fragment 간 관계가 화학적으로 일관적인가?
noise가 아닌 구조적 패턴인가?

즉,

confidence = reference 일치도
→
confidence = 패턴 일관성 + 화학적 plausibility

이건 규제적으로도 완전히 다른 사고방식입니다.

6️⃣ 세 번째 변화 지점: “Unknown”의 정의가 사라진다

Foundation model 이후의 “unknown”은 더 이상

“아무것도 모르는 것”

이 아닙니다.

대신 이렇게 바뀝니다.

구조 class는 추정 가능
functional group 가능성 제시
fragment 생성 메커니즘 설명 가능
biological relevance 가능성 제시

즉,

unknown compound → partially explained entity

이게 metabolomics에서 말하는
annotation bottleneck 붕괴의 실체입니다.

7️⃣ LC-MS/MS 해석 workflow 자체가 바뀐다

기존 workflow

Raw data → peak picking → library search → hit / no hit → manual review

Foundation model 기반 workflow

Raw data → spectral embedding → pattern clustering → hypothesis generation → targeted confirmation

여기서 중요한 포인트:

manual review는 사라지지 않는다
review의 대상이 “피크”가 아니라 “가설”이 된다

8️⃣ 왜 이 변화는 automation보다 위험하고 강력한가

Automation은 실패하면 멈추면 됩니다.
하지만 해석 기준의 변화는 되돌릴 수 없습니다.

QA / audit 관점에서 이 질문이 반드시 나옵니다.

“이 해석은 어떻게 설명 가능한가?”

그래서 Foundation model이 LC-MS에서 살아남으려면
Explainability가 필수가 됩니다.

9️⃣ Explainable foundation model이 요구하는 최소 조건

어떤 fragment 관계가 판단에 기여했는가
reference 없이 어떻게 plausible하다고 말하는가
training data의 화학적 범위는 어디까지인가
사람이 검증 가능한 중간 표현이 존재하는가

👉 이걸 설명 못 하면
규제 환경에서는 ‘black magic’이 됩니다.

1️⃣0️⃣ 정리하면, 바뀌는 지점은 이 세 가지다

1️⃣ Identification 이전에 해석이 시작된다
2️⃣ Confidence의 기준이 ‘match’에서 ‘일관성’으로 이동한다
3️⃣ Unknown이 ‘설명 불가능’에서 ‘부분적으로 이해된 상태’로 바뀐다

마지막 문장

Foundation model은 LC-MS 데이터를 더 빨리 분석하지 않는다.
대신,
“무엇을 안다고 말할 수 있는가”의 경계를 다시 그린다.

728x90

'제약산업' 카테고리의 다른 글

TDM 데이터에서 ‘통계적 유의성’이 임상적으로 무의미해지는 순간 (0)	2026.03.01
Targeted metabolomics 결과를 임상 의사결정에 연결하는 법 (0)	2026.02.28
Metabolomics annotation bottleneck 붕괴 이후 등장하는 새로운 문제들 (0)	2026.02.27
AI 모델을 SOP에 포함시키기 위한 최소 조건 (0)	2026.02.26
Anomaly detection을 QC fail보다 먼저 쓰는 전략 (0)	2026.02.24
Explainable AI가 LC-MS 분석에서 중요한 진짜 이유 (0)	2026.02.23
왜 대부분의 AI-LC-MS 프로젝트는 PoC에서 멈추는가 (0)	2026.02.22
R 자동화 결과를 QA가 신뢰하게 만드는 문서 구조 (0)	2026.02.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰