티스토리 뷰

728x90

LC-MS/MS 기반 metabolomics에서 발생하는 ‘확신의 착각’

라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정
라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정

Untargeted metabolomics 연구에서 metabolite identification은 항상 가장 어려운 단계로 꼽힌다. 수천 개의 feature가 검출되지만, 그 중 상당수는 정확한 화합물 이름을 갖지 못한 채 분석 과정에 남게 된다. 이 때문에 대부분의 연구자들은 가능한 많은 feature를 spectral library와 매칭하여 metabolite identity를 부여하려고 한다.

실제로 modern metabolomics workflow에서 library matching은 매우 강력한 도구이다. 수많은 MS/MS 스펙트럼을 데이터베이스와 비교함으로써 짧은 시간 안에 많은 metabolite 후보를 얻을 수 있기 때문이다. 연구자 입장에서는 복잡한 스펙트럼을 해석하지 않아도 similarity score 하나로 identification 결과를 확인할 수 있다는 점도 큰 장점이다.

하지만 바로 이 지점에서 중요한 문제가 발생한다.
library matching 결과는 종종 실제보다 훨씬 더 확정적인 정보처럼 보이게 만드는 심리적 효과를 만들어 낸다. 높은 similarity score와 데이터베이스 이름이 함께 제시되는 순간, 연구자는 그 결과를 거의 “정답”처럼 받아들이게 되는 경향이 있다.

이 글에서는 metabolomics 연구에서 library matching이 어떻게 확신의 착각을 유도하는지, 그리고 이러한 심리적 함정이 데이터 해석에 어떤 영향을 미치는지 살펴보고자 한다.

1. Library matching이 주는 ‘객관성의 착각’

Library matching의 가장 큰 특징은 결과가 숫자로 표현된다는 점이다.

예를 들어 LC-MS/MS 데이터 분석에서 다음과 같은 결과가 나타난다고 가정해 보자.

  • Spectral similarity score: 0.93
  • Candidate metabolite: phosphatidylcholine (PC 34:1)

이 숫자를 보는 순간 대부분의 연구자는 다음과 같은 인식을 갖게 된다.

“0.93이면 거의 확실하다.”

하지만 실제로 이 similarity score가 무엇을 의미하는지는 생각보다 복잡하다. Spectral similarity는 보통 다음 요소들을 기반으로 계산된다.

  • fragment ion m/z 일치 정도
  • fragment intensity 패턴
  • peak presence/absence

즉 이 값은 스펙트럼 패턴이 얼마나 유사한지를 보여줄 뿐이며, 반드시 동일한 화합물을 의미하는 것은 아니다.

그럼에도 불구하고 숫자로 표현된 결과는 연구자에게 강한 객관성의 인상을 준다. 이것이 library matching이 정답처럼 보이게 만드는 첫 번째 심리적 요인이다.

2. 데이터베이스 이름이 주는 권위 효과

Metabolomics 연구에서 사용되는 주요 spectral library는 상당히 권위 있는 데이터베이스들이다. 대표적으로 다음과 같은 라이브러리가 널리 사용된다.

  • Human Metabolome Database
  • MassBank
  • Global Natural Products Social Molecular Networking
  • METLIN Metabolite Database

이러한 데이터베이스 이름이 결과 화면에 나타나는 순간 연구자는 자연스럽게 다음과 같이 생각하게 된다.

“이미 검증된 데이터베이스에서 나온 결과이니 틀릴 가능성은 낮다.”

하지만 실제로 spectral library는 여러 조건에서 생성된 스펙트럼을 모아 놓은 데이터 집합일 뿐이다. 사용된 장비, collision energy, ionization 조건 등이 다르면 fragmentation pattern 역시 달라질 수 있다.

즉 library는 reference 정보일 뿐이며 절대적인 정답 데이터가 아니다.
그럼에도 불구하고 데이터베이스 이름 자체가 일종의 권위 신호(authority signal)로 작용하여 연구자의 판단을 무의식적으로 강화한다.

3. ‘이름이 붙는 순간’ 생기는 해석 변화

Metabolomics 데이터에서 매우 흥미로운 현상이 하나 있다. 동일한 feature라도 이름이 붙는 순간 연구자의 해석 방식이 완전히 달라진다는 것이다.

예를 들어 어떤 feature가 다음과 같은 상태라고 가정해 보자.

  • m/z: 496.339
  • RT: 5.4 min
  • fold change: 2.1

이 상태에서는 연구자가 할 수 있는 해석이 제한적이다. 하지만 library matching 결과가 다음과 같이 나오면 상황이 달라진다.

  • annotation: lysophosphatidylcholine

이 순간 연구자는 다음과 같은 생물학적 서사를 만들기 시작한다.

  • membrane remodeling
  • inflammatory signaling
  • lipid metabolism 변화

즉 metabolite 이름이 붙는 순간, 단순한 feature는 생물학적 의미를 가진 분자로 변한다. 문제는 이 변화가 때로는 annotation 확실성보다 훨씬 빠르게 진행된다는 것이다.

4. Fragmentation pattern의 유사성 문제

MS/MS fragmentation 패턴은 구조적으로 유사한 화합물에서 매우 비슷하게 나타나는 경우가 많다. 특히 lipid metabolomics에서는 이러한 현상이 흔하다.

예를 들어 phosphatidylcholine 계열 lipid는 다음과 같은 특징을 가진다.

  • 공통 headgroup fragment
  • 유사한 neutral loss pattern

이 때문에 서로 다른 lipid species라도 fragmentation pattern이 상당히 비슷하게 나타날 수 있다. spectral similarity score는 이러한 공통 fragment 때문에 높게 계산될 가능성이 있다.

결과적으로 library matching은 특정 화합물을 정확히 지목하는 것이 아니라, 유사한 화합물 군을 가리키는 경우도 많다.

5. Similarity score의 해석 문제

Spectral similarity score는 일반적으로 cosine similarity와 같은 수학적 지표를 사용한다. 하지만 이 값은 몇 가지 한계를 가진다.

첫째, fragment intensity 변화에 민감하다.
둘째, low-intensity fragment는 종종 무시된다.
셋째, noise peak가 결과에 영향을 줄 수 있다.

이러한 이유로 높은 similarity score가 반드시 정확한 identification을 의미하지는 않는다. 그러나 숫자가 높게 나타나면 연구자는 이를 자연스럽게 확정적 근거로 받아들이게 된다.

6. Confirmation bias의 작동

Library matching이 위험해지는 또 하나의 이유는 confirmation bias이다. 연구자는 종종 이미 예상하고 있는 metabolite를 무의식적으로 찾게 된다.

예를 들어 염증 관련 연구를 수행하고 있다면 연구자는 다음과 같은 metabolite에 더 많은 관심을 가지게 된다.

  • arachidonic acid
  • prostaglandin
  • lysophospholipid

이 상황에서 library matching 결과가 이러한 metabolite 중 하나와 일치하면 연구자는 그 결과를 더욱 쉽게 받아들이게 된다.

즉 annotation 결과가 연구자의 기대와 맞아 떨어질수록 검증 과정이 느슨해질 위험이 존재한다.

7. Unknown feature가 사라지는 순간

Untargeted metabolomics 데이터에서 상당수의 feature는 정확히 identification되지 않는다. 그러나 library matching 결과가 나오면 연구자는 자연스럽게 annotation된 metabolite 중심으로 결과를 정리하게 된다.

이 과정에서 다음과 같은 현상이 발생한다.

  • unknown feature 분석 감소
  • annotation 가능한 metabolite 중심 해석
  • 데이터 구조 단순화

즉 library matching은 데이터 해석을 더 쉽게 만들어 주지만, 동시에 데이터의 일부를 보이지 않게 만드는 효과도 가지고 있다.

8. Annotation confidence와 해석 신뢰도는 다르다

Metabolomics 연구에서 중요한 사실은 다음과 같다.

annotation confidence ≠ biological interpretation confidence

spectral library matching은 chemical identity에 대한 단서를 제공하지만, 그 자체가 biological mechanism을 증명하지는 않는다.

하지만 metabolite 이름이 확정되는 순간 연구자는 종종 이 두 단계를 하나로 연결해 버린다.

9. 심리적 함정을 피하기 위한 접근

이러한 문제를 줄이기 위해 metabolomics 연구에서는 몇 가지 접근이 권장된다.

첫째, library matching 결과를 annotation hypothesis로 취급한다.
둘째, retention time 정보와 함께 검증한다.
셋째, 가능하면 reference standard로 확인한다.
넷째, 구조 이성질체 가능성을 항상 고려한다.

또한 metabolomics 데이터 해석에서는 개별 metabolite보다 패턴과 pathway 변화를 함께 고려하는 것이 중요하다.

결론

LC-MS/MS 기반 metabolomics에서 spectral library matching은 매우 강력한 도구이다. 하지만 이 도구는 동시에 연구자의 판단에 미묘한 심리적 영향을 미친다.

높은 similarity score와 데이터베이스 이름이 제시되는 순간, 연구자는 그 결과를 거의 정답처럼 받아들이게 되는 경향이 있다. 그러나 실제로 library matching은 단지 가능성 높은 후보를 제시하는 과정일 뿐이다.

따라서 metabolomics 연구에서 중요한 것은 library matching 결과를 그대로 받아들이는 것이 아니라, 그 결과가 어떤 가정을 포함하고 있는지 인식하는 것이다. 결국 좋은 metabolomics 해석은 더 많은 metabolite 이름을 얻는 것이 아니라, 데이터가 가진 불확실성을 이해하면서 가설을 신중하게 구축하는 과정에서 만들어진다.

728x90