티스토리 뷰

728x90

MS를 다루는 사람이라면 누구나 비슷한 경험을 한 적이 있을 것이다.
정량 분석은 비교적 빠르게 끝났는데, 보고서 마감은 계속 늦어지고 있다. 이유를 들여다보면 대부분 MS/MS 기반 정성 해석에서 막혀 있다. 주요 성분 하나는 구조가 명확한데, 그 주변에 따라붙은 여러 개의 minor peak들, retention time은 비슷하고 MS/MS는 그럴듯한데 딱 잘라 말할 수는 없는 애매한 스펙트럼들 때문이다.

“이건 아마 이런 구조일 것 같다.”
“여기서 methyl 하나 빠진 형태 같긴 한데…”

보고서에는 결국 putative identification, tentatively assigned 같은 표현이 반복해서 등장한다.
이 장면은 대사체 분석이든, 분해산물 분석이든, 불순물 분석이든 거의 비슷하다.

MS/MS 분석 기술은 분명히 엄청나게 발전했다.
Orbitrap, Q-TOF, timsTOF, ion mobility까지.
분해능도 높고 정확도도 뛰어나다.

그런데 이상하게도 해석의 방식 자체는 10~20년 전과 크게 달라지지 않았다는 느낌을 지울 수 없다.
여전히 우리는 fragment ion 하나하나를 쳐다보며, 머릿속에 쌓아온 경험과 규칙을 꺼내 맞춰 보고 있다.


이러한 상황에서 최근 등장한 Foundation model 기반 MS/MS 해석은 단순히 “AI를 쓴다”는 차원을 넘어서, MS/MS를 바라보는 관점 자체를 바꾸고 있다는 점에서 의미가 크다.

기존의 MS/MS 해석은 본질적으로 fragment 중심 사고였다.
즉, 스펙트럼을 보면 가장 먼저 떠오르는 질문은 이것이다.

“이 fragment는 어디서 떨어져 나온 걸까?”

이 질문은 매우 화학적이고, 합리적이다.
우리는 bond energy를 떠올리고, functional group을 떠올리고, 중성 손실(neutral loss)을 하나씩 대입해 본다. 이 과정은 분석가의 숙련도를 가장 잘 드러내는 순간이기도 하다.

하지만 이 방식에는 구조적인 한계가 있다.
설명되는 fragment는 계속 설명하려 하고, 설명되지 않는 fragment는 무의식적으로 배제하게 된다.
결국 “내가 이해할 수 있는 조각들만 모아 구조를 상상하는 방식”이 된다.

Foundation model은 이 접근을 정면에서 뒤집는다.
이 모델은 fragment가 왜 생겼는지를 묻지 않는다.
대신 “이 전체 스펙트럼 패턴은 어떤 분자를 닮아 있는가”를 묻는다.

처음 이 접근을 접하면 다소 불편하다.
분석가 입장에서는 “근거 없이 맞히는 것 아니냐”는 거부감이 생긴다.
하지만 조금만 생각해 보면, 사실 우리는 이미 비슷한 일을 해오고 있었다.

경험 많은 분석가는 MS/MS를 보는 순간 이렇게 말하곤 한다.

“이건 벤젠 고리 두 개는 확실히 있고, 질소 하나 들어간 느낌이야.”

이 말은 fragment 하나하나를 논리적으로 증명한 결과라기보다는, 전체 패턴을 본 직관적 판단에 가깝다.
Foundation model은 바로 이 ‘직관’을 데이터로 학습한 결과라고 볼 수 있다.


Foundation model의 가장 큰 특징은 규칙을 사람이 정의하지 않는다는 점이다.
과거의 소프트웨어들은 모두 “이런 결합은 이렇게 끊어진다”는 규칙을 사람이 먼저 정해줘야 했다.
하지만 Foundation model은 수십만, 수백만 개의 (분자 구조 – MS/MS 스펙트럼) 쌍을 학습하면서,
어떤 구조가 어떤 패턴의 스펙트럼을 만드는지를 통계적으로, 잠재 공간(latent space)에 내재화한다.

이 과정에서 모델은 굳이 “이건 acyl cleavage다”라고 이름 붙이지 않는다.
대신 “이런 구조를 가진 분자들은 대체로 이런 형태의 신호를 만든다”는 식으로 이해한다.

그래서 Foundation model 기반 해석은 결과도 다르게 나온다.
기존 방식이 “이 구조가 맞다 / 틀리다”였다면,
이제는 “이 구조일 확률이 몇 %다”, “이 구조군에 속할 가능성이 높다”는 식의 결과가 나온다.

이 변화는 작아 보이지만, 실무에서는 굉장히 크다.
특히 unknown이 많은 분석에서는 ‘모르겠다’와 ‘가능성이 있다’의 차이가 보고서의 깊이를 완전히 바꿔 놓는다.


실제 분석 workflow에서도 변화는 분명하다.
예전의 non-targeted metabolomics를 떠올려보자.
수천 개의 feature를 검출해 놓고, annotation이 되는 것은 그중 일부에 불과했다.
나머지는 feature table에 숫자로만 남아 있고, biological interpretation에서는 자연스럽게 탈락했다.

Foundation model 기반 해석이 들어오면 상황이 달라진다.
모든 feature에 대해 완전한 구조를 붙이지는 못하더라도,

  • aromatic-rich compound
  • steroid-like scaffold
  • amino acid derivative
    같은 구조적 힌트를 제공할 수 있다.

이는 downstream 해석, 예를 들어 pathway 분석이나 독성 해석에서 큰 차이를 만든다.
“이건 이름 없는 피크입니다”와
“이건 이런 계열의 분자로 보입니다”는
해석의 출발선 자체가 다르다.


물론 이 모든 것이 장밋빛만은 아니다.
Foundation model은 여전히 블랙박스에 가깝다.
왜 이 구조를 선택했는지, 어떤 fragment가 결정적이었는지를 명확히 설명하지 못하는 경우가 많다.
GMP나 GLP 환경에서는 이 부분이 가장 큰 장애물이다.

그래서 현실적인 방향은 분명하다.
Foundation model이 분석가를 대체하는 도구가 되기는 어렵다.
대신 분석가의 사고 범위를 넓혀주는 강력한 보조 엔진이 된다.

AI가 구조 후보를 던져주고,
분석가는 그것을 MS/MS, RT, 화학적 타당성, 추가 실험으로 검증한다.
이 역할 분담은 오히려 분석가의 전문성을 더 선명하게 드러낸다.


아마 앞으로 MS/MS 해석 보고서의 문장도 달라질 것이다.

“Fragment ion m/z XXX corresponds to…”
라는 문장보다는,

“MS/MS spectrum suggests a high probability of…”
라는 문장이 더 자연스러워질지도 모른다.

MS/MS는 여전히 fragment로 구성된 데이터다.
하지만 해석의 중심은 fragment가 아니라 분자 전체의 의미로 이동하고 있다.

Foundation model은 단순히 새로운 도구가 아니라,
MS/MS를 이해하는 언어 자체를 바꾸고 있다고 보는 편이 더 정확하다.

 

Foundation model을 이용한 MS/MS 스펙트럼 해석, 분석가는 무엇을 다르게 보게 되는가

 

728x90