Annotation confidence가 높아질수록 해석이 위험해지는 이유

티스토리 뷰

제약산업

Annotation confidence가 높아질수록 해석이 위험해지는 이유

pharma_info 2026. 3. 21. 20:29

728x90

Metabolomics 해석에서 발생하는 ‘확신의 역설’

Annotation confidence가 높아질수록 해석이 위험해지는 이유

Metabolomics 연구를 수행하다 보면 연구자들은 자연스럽게 하나의 목표를 향해 달려가게 된다. 바로 metabolite identification 정확도를 최대한 높이는 것이다. LC-MS 기반 metabolomics 데이터는 수천에서 수만 개의 feature를 생성하고, 그 중 상당수는 이름이 붙지 않은 채 “unknown” 상태로 남는다. 이 때문에 많은 연구자들은 annotation 정확도를 높이고 가능한 많은 metabolite를 Level 1 혹은 Level 2 수준으로 식별하는 것을 연구의 핵심 목표로 설정한다.

그러나 metabolomics 연구가 축적되면서 한 가지 흥미로운 현상이 반복적으로 관찰되기 시작했다. annotation confidence가 높아질수록 오히려 생물학적 해석이 더 위험해지는 상황이 발생한다는 것이다. 직관적으로 보면 이는 모순처럼 보인다. 정확하게 identification된 metabolite가 많아질수록 연구의 신뢰도 역시 높아져야 할 것 같기 때문이다. 하지만 실제 metabolomics 데이터 해석 과정에서는 정반대의 상황이 나타날 수 있다.

이 글에서는 metabolomics 연구에서 annotation confidence가 높아질수록 해석이 왜 위험해질 수 있는지, 그리고 이러한 현상이 어떤 구조적 이유에서 발생하는지 분석해 보고자 한다.

1. Metabolite annotation confidence의 의미

Metabolomics 연구에서는 일반적으로 metabolite identification 수준을 단계적으로 분류한다. 가장 널리 사용되는 기준은 metabolomics community에서 제안된 annotation level 체계이다.

일반적으로 metabolite identification은 다음과 같이 구분된다.

Level 1: reference standard와 RT, MS/MS가 모두 일치하는 확정적 identification
Level 2: spectral library 기반의 high-confidence annotation
Level 3: 화학적 class 수준의 annotation
Level 4: unknown feature

이 체계에서 연구자들은 당연히 가능한 많은 metabolite를 Level 1 또는 Level 2 수준으로 올리는 것을 목표로 한다. 실제로 많은 논문에서도 identification rate를 연구 품질의 지표처럼 제시하는 경우가 많다.

하지만 문제는 annotation confidence가 높아질수록 연구자의 해석도 함께 “확정적”으로 변한다는 점이다. 그리고 바로 이 지점에서 metabolomics 해석의 위험이 시작된다.

2. Annotation이 확정될수록 해석이 과도해지는 이유

Metabolomics 데이터 해석 과정은 단순히 metabolite를 찾는 작업으로 끝나지 않는다. 대부분의 연구에서는 다음과 같은 해석 단계가 뒤따른다.

Differential metabolite identification
Pathway mapping
Biological interpretation

이때 metabolite 이름이 확정되면 연구자는 자연스럽게 해당 화합물이 속한 대사 경로와 생물학적 기능을 연결하게 된다.

예를 들어 특정 metabolite가 다음과 같이 identification되었다고 가정해 보자.

arachidonic acid 증가
sphingosine 감소
lactate 증가

이러한 결과가 나오면 연구자는 매우 자연스럽게 다음과 같은 해석을 제시한다.

inflammatory pathway activation
lipid signaling 변화
glycolysis 증가

문제는 이러한 해석이 annotation 자체보다 훨씬 더 큰 가정 위에 세워진다는 점이다.

즉 metabolite identification은 비교적 좁은 범위의 분석적 판단이지만, 그 이후의 생물학적 해석은 훨씬 더 복잡한 시스템 수준의 가정을 포함한다.

3. Metabolite 하나로 pathway를 해석하는 위험성

대사 경로는 매우 복잡한 네트워크 구조를 가진다. 하나의 metabolite는 종종 여러 metabolic pathway에 동시에 연결되어 있다.

예를 들어 citrate는 다음과 같은 여러 경로와 연결된다.

TCA cycle
fatty acid synthesis
cholesterol biosynthesis
acetyl-CoA metabolism

따라서 citrate가 증가했다는 사실만으로 특정 pathway가 활성화되었다고 결론 내리기는 어렵다.

하지만 metabolite identification이 확실해질수록 연구자는 이러한 불확실성을 종종 간과하게 된다. 즉 metabolite 이름이 명확하게 밝혀지는 순간, 연구자의 해석도 함께 “확정적 서술”로 바뀌는 경향이 나타난다.

이 현상은 일종의 interpretation overconfidence라고 볼 수 있다.

4. 구조 이성질체 문제

Metabolomics annotation에서 또 하나의 중요한 문제는 구조 이성질체(isomer)이다. 동일한 분자식과 매우 유사한 MS/MS 패턴을 가지면서도 생물학적 기능이 완전히 다른 화합물이 존재할 수 있다.

예를 들어 lipid metabolomics에서는 이러한 문제가 매우 흔하다. 동일한 mass를 가지는 lipid species가 여러 개 존재하며, 이들은 다음과 같은 차이를 가진다.

fatty acid chain length
double bond position
stereochemistry

이러한 차이는 biological function에 큰 영향을 미칠 수 있다. 하지만 LC-MS 기반 분석에서는 이러한 구조적 차이를 완전히 구분하기 어려운 경우가 많다.

즉 annotation confidence가 높다고 해도 실제로는 구조적 ambiguity가 남아 있을 수 있다.

5. Spectral library 기반 annotation의 한계

Level 2 annotation의 상당 부분은 spectral library matching에 의존한다. 그러나 spectral library는 몇 가지 근본적인 한계를 가진다.

첫째, 라이브러리는 제한된 조건에서 생성된 스펙트럼만 포함한다.
둘째, fragmentation pattern은 instrument condition에 영향을 받을 수 있다.
셋째, 일부 metabolite는 매우 유사한 fragmentation pattern을 가진다.

이 때문에 높은 spectral similarity score가 항상 정확한 identification을 의미하지는 않는다.

하지만 annotation confidence score가 높게 나타나면 연구자는 이를 사실상 확정적 identification처럼 받아들이는 경향이 있다. 이 역시 해석의 위험을 증가시키는 요인이다.

6. Annotation bias와 연구 설계

Metabolomics 연구에서는 annotation bias라는 문제도 존재한다. 특정 화합물 class는 상대적으로 identification이 쉽고, 다른 class는 매우 어렵다.

예를 들어 다음과 같은 차이가 있다.

lipid metabolite → annotation 상대적으로 쉬움
secondary metabolite → annotation 매우 어려움
microbiome metabolite → 라이브러리 부족

이로 인해 분석 결과는 자연스럽게 annotation 가능한 metabolite 중심으로 해석된다.

즉 실제로는 다른 metabolite class에서 더 중요한 변화가 발생했을 수도 있지만, identification이 가능한 metabolite만 해석에 포함되면서 연구 결과가 특정 방향으로 편향될 수 있다.

7. 통계적 significance와 biological interpretation의 간극

Metabolomics 데이터 분석에서는 통계적 유의성이 중요한 기준이 된다. 하지만 통계적 significance가 곧 biological significance를 의미하지는 않는다.

예를 들어 어떤 metabolite가 다음과 같은 결과를 보였다고 가정해 보자.

p-value < 0.001
fold change 1.3

통계적으로는 매우 유의하지만, 실제 biological system에서 이러한 변화가 의미 있는지 여부는 별도의 문제이다.

하지만 metabolite identification이 확정되면 연구자는 이러한 통계 결과를 곧바로 생물학적 변화로 연결하는 경향이 나타난다.

8. Unknown feature의 가치

흥미롭게도 metabolomics 데이터에서 가장 중요한 정보가 unknown feature에 포함되어 있는 경우도 많다.

Untargeted metabolomics 데이터에서 unknown feature는 종종 다음과 같은 특징을 가진다.

새로운 metabolic pathway 신호
microbiome derived compound
drug metabolite
environmental chemical

하지만 annotation 중심 연구에서는 이러한 feature가 해석 과정에서 제외되는 경우가 많다.

즉 annotation confidence가 높아질수록 오히려 연구자가 unknown signal을 무시하게 되는 역설이 발생할 수 있다.

9. Metabolomics 해석의 새로운 접근

최근 metabolomics 연구에서는 이러한 문제를 인식하면서 해석 방식도 조금씩 변화하고 있다.

과거의 접근 방식은 다음과 같았다.

feature detection → metabolite identification → pathway analysis

하지만 최근에는 다음과 같은 접근이 점점 강조된다.

feature detection → pattern analysis → biological hypothesis → targeted validation

즉 metabolite identification은 연구의 출발점이 아니라 가설 검증 단계로 이동하고 있다.

10. Annotation confidence와 해석 신뢰도는 다른 문제

Metabolomics 연구에서 가장 중요한 점은 annotation confidence와 interpretation confidence가 서로 다른 개념이라는 것이다.

metabolite identification이 정확하다고 해서 biological interpretation이 반드시 정확한 것은 아니다.

오히려 identification이 확실해질수록 연구자는 더 강한 서술을 사용하게 되고, 그 과정에서 해석의 불확실성이 가려질 수 있다.

이것이 바로 metabolomics 연구에서 말하는 “확신의 역설”이다.

결론

Metabolomics 연구에서 metabolite identification은 분명 중요한 과정이다. 그러나 그것이 연구의 궁극적인 목표가 될 때, 데이터 해석은 오히려 더 위험해질 수 있다.

annotation confidence가 높아질수록 연구자는 더 강한 해석을 제시하게 되고, 그 과정에서 다음과 같은 문제가 발생할 수 있다.

pathway overinterpretation
annotation bias
구조 이성질체 문제
unknown feature 배제

따라서 metabolomics 연구에서 중요한 것은 단순히 더 많은 metabolite를 identification하는 것이 아니라, 데이터가 제시하는 패턴을 어떻게 생물학적 가설로 연결할 것인가이다.

결국 metabolomics 데이터 해석의 핵심은 metabolite 이름이 아니라, 그 데이터가 어떤 생물학적 질문을 제기하고 있는지를 이해하는 데 있다.

728x90

'제약산업' 카테고리의 다른 글

동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유 (0)	2026.03.25
Metabolomics에서 false discovery를 줄이는 사고 방식 (0)	2026.03.24
라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정 (1)	2026.03.23
Unknown peak를 버리는 순간 잃어버리는 과학적 가능성 (0)	2026.03.22
Metabolite identification이 아니라‘가설 생성 과정’으로 보는 metabolomics (0)	2026.03.20
Single-cell proteomics 미래 (1)	2026.03.19
Multi-omics에서 proteomics 역할 (0)	2026.03.18
단백질 abundance vs 기능 문제 (0)	2026.03.17

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

제약회사 연구원의 블로그

티스토리 뷰