Unknown peak를 버리는 순간 잃어버리는 과학적 가능성

티스토리 뷰

제약산업

Unknown peak를 버리는 순간 잃어버리는 과학적 가능성

pharma_info 2026. 3. 22. 20:12

728x90

– LC-MS 기반 metabolomics 데이터에서 가장 조용히 사라지는 정보

LC-MS 기반 untargeted metabolomics 데이터를 처음 접하는 연구자라면 거의 비슷한 경험을 하게 된다. 분석이 끝난 뒤 feature table을 열어보면 수천 개, 때로는 수만 개의 peak가 존재한다. 그러나 annotation 단계로 넘어가면 그중 상당수는 이름을 얻지 못한다. spectral library와 매칭되지도 않고, 정확한 분자식도 확정되지 않으며, biological pathway에도 쉽게 연결되지 않는다. 이렇게 남겨진 peak들은 대부분 “unknown feature”라는 이름으로 정리된다.

문제는 많은 metabolomics 연구에서 바로 이 지점에서 중요한 선택이 이루어진다는 것이다. 연구자는 보통 annotation 가능한 metabolite 중심으로 결과를 정리하고, unknown peak는 분석에서 제외하는 방향을 택한다. 논문에서도 흔히 다음과 같은 문장을 볼 수 있다.

“Identified metabolites were used for downstream pathway analysis.”

이 문장은 매우 자연스럽게 보이지만, 그 이면에는 한 가지 중요한 사실이 숨어 있다. 바로 데이터의 상당 부분이 해석 과정에서 사라진다는 점이다. 그리고 바로 이 순간, 연구자가 아직 알지 못하는 과학적 가능성 역시 함께 사라질 수 있다

1. Untargeted metabolomics 데이터의 실제 구조

Untargeted metabolomics 데이터는 생각보다 훨씬 많은 정보를 포함하고 있다. 일반적인 LC-MS 분석에서 얻어지는 feature 수를 보면 다음과 같은 구조를 가진다.

대략적인 예를 들어 보면,

검출된 total feature: 10,000
통계적으로 유의한 feature: 400
library 기반 annotation 가능: 50~80

즉 전체 데이터 중 90% 이상이 이름을 갖지 못한 상태로 남는다.

이러한 현상은 단순히 분석 기술이 부족해서 발생하는 것이 아니다. metabolome 자체가 매우 복잡하고, 현재의 spectral library가 이를 완전히 포괄하지 못하기 때문에 발생하는 구조적인 현상이다.

그럼에도 불구하고 많은 연구에서는 identification된 metabolite만을 중심으로 결과를 해석한다. 이는 분석을 단순하게 만들어 주지만, 동시에 데이터의 대부분을 해석에서 제외하는 결과를 낳는다.

2. Unknown peak는 단순한 노이즈가 아니다

Unknown peak를 무시하는 가장 흔한 이유는 그것이 “의미 없는 신호”일 가능성 때문이다. 실제로 LC-MS 데이터에는 다양한 종류의 비생물학적 신호가 존재한다.

예를 들어 다음과 같은 것들이 포함될 수 있다.

solvent contamination
column bleed
plasticizer contamination
in-source fragment
background ion

하지만 모든 unknown peak가 이러한 노이즈에 해당하는 것은 아니다. 실제로 metabolomics 연구에서는 매우 중요한 biological signal이 unknown 상태로 존재하는 경우도 많다.

특히 다음과 같은 화합물들은 library에서 쉽게 찾기 어렵다.

microbiome-derived metabolite
diet-derived compound
environmental chemical
새로운 drug metabolite
아직 보고되지 않은 endogenous metabolite

즉 unknown peak는 단순한 노이즈가 아니라 아직 이해되지 않은 생물학적 신호일 가능성을 포함하고 있다.

3. 새로운 대사 경로 발견은 항상 unknown에서 시작된다

과학의 역사에서 새로운 metabolic pathway가 발견되는 과정은 대부분 비슷한 패턴을 따른다. 연구자들은 처음에 정체를 알 수 없는 신호를 관찰하고, 그 신호를 설명하기 위해 추가 실험을 진행하면서 새로운 화합물이나 경로를 발견하게 된다.

Metabolomics에서도 이 과정은 동일하다. 새로운 metabolite나 metabolic pathway는 대부분 unknown feature로 처음 등장한다.

만약 연구자가 처음부터 unknown peak를 모두 제거한다면, 이러한 발견의 가능성 역시 사라진다.

실제로 microbiome metabolomics 연구에서는 이 문제가 매우 중요하게 다뤄진다. 인간 장내 미생물이 생산하는 metabolite 중 상당수는 기존 metabolite database에 존재하지 않기 때문이다. 따라서 unknown peak를 제거하면 microbiome 관련 대사 신호의 상당 부분이 분석에서 사라질 수 있다.

4. Annotation bias가 만드는 해석 왜곡

Metabolomics 연구에서 또 하나 중요한 문제는 annotation bias이다. spectral library는 모든 화합물 class를 동일하게 포함하고 있지 않다. 일부 metabolite class는 매우 잘 정리되어 있지만, 다른 class는 거의 포함되어 있지 않다.

예를 들어 다음과 같은 차이가 존재한다.

annotation이 비교적 쉬운 경우

lipid metabolite
amino acid derivative
central carbon metabolite

annotation이 어려운 경우

microbiome metabolite
plant secondary metabolite
environmental compound

이 때문에 identification 중심 분석을 수행하면 연구 결과는 자연스럽게 annotation 가능한 metabolite class 중심으로 구성된다.

즉 실제로는 다른 화합물군에서 중요한 변화가 발생했을 수도 있지만, identification이 어려운 이유로 연구 결과에서 제외될 수 있다. 이러한 현상은 metabolomics 데이터 해석을 특정 방향으로 편향시킬 수 있다.

5. Machine learning 분석에서는 unknown feature가 더 중요할 수 있다

최근 metabolomics 연구에서는 machine learning 기반 분석이 점점 많이 사용되고 있다. 질병 분류, biomarker 탐색, 약물 반응 예측 등 다양한 분야에서 metabolomics 데이터가 활용된다.

흥미로운 점은 이러한 모델에서 unknown feature가 매우 중요한 역할을 할 수 있다는 것이다.

Machine learning 모델은 feature의 chemical identity보다 패턴 정보를 활용한다. 즉 특정 m/z와 retention time을 가진 feature가 질병 상태와 강하게 연관되어 있다면, 그 feature의 구조가 완전히 밝혀지지 않았더라도 예측 모델에서는 중요한 변수로 작용할 수 있다.

실제로 일부 biomarker 연구에서는 구조가 완전히 밝혀지지 않은 feature 조합이 높은 예측 성능을 보이기도 한다. 이 경우 metabolite identification은 후속 연구 단계에서 진행될 수 있다.

6. Unknown peak가 가설 생성의 출발점이 된다

Metabolomics 데이터에서 중요한 것은 개별 metabolite 이름이 아니라 패턴과 변화의 구조이다. unknown peak도 이러한 패턴의 일부를 구성한다.

예를 들어 다음과 같은 상황을 생각해 볼 수 있다.

특정 질병군에서

5개의 lipid metabolite 증가
12개의 unknown feature 증가

이 unknown feature들이 서로 비슷한 retention time 영역에 위치하고 있다면, 연구자는 다음과 같은 가설을 세울 수 있다.

“특정 lipid-related metabolic pathway가 활성화되었을 가능성”

이러한 가설은 이후 targeted 분석이나 structural identification을 통해 검증될 수 있다. 즉 unknown peak는 단순히 해석이 불가능한 데이터가 아니라 새로운 질문을 만들어내는 출발점이 될 수 있다.

7. Unknown peak를 관리하는 전략

물론 모든 unknown feature를 동일하게 취급할 필요는 없다. LC-MS 데이터에는 실제로 많은 background signal이 포함되어 있기 때문이다. 따라서 중요한 것은 unknown peak를 무조건 제거하거나 모두 유지하는 것이 아니라 체계적으로 관리하는 것이다.

일반적으로 다음과 같은 접근이 사용된다.

첫째, blank sample과 비교하여 background signal을 제거한다.
둘째, QC sample을 통해 reproducible feature만 유지한다.
셋째, statistical significance 기반으로 feature를 선별한다.
넷째, molecular networking이나 clustering을 통해 구조적 관계를 분석한다.

이러한 과정을 거치면 unknown peak 중에서도 생물학적으로 의미 있을 가능성이 높은 신호를 선택할 수 있다.

8. Metabolomics 연구의 패러다임 변화

과거 metabolomics 연구는 다음과 같은 흐름을 따르는 경우가 많았다.

feature detection → metabolite identification → pathway analysis

하지만 최근에는 다음과 같은 접근이 점점 강조되고 있다.

feature detection → pattern analysis → biological hypothesis → targeted identification

즉 metabolite identification은 연구의 시작점이 아니라 가설을 검증하는 단계로 이동하고 있다. 이 과정에서 unknown peak는 단순히 제거해야 할 데이터가 아니라, 새로운 생물학적 질문을 만들어내는 중요한 정보가 된다.

결론

Untargeted metabolomics 데이터에서 unknown peak는 피하기 어려운 현실이다. 많은 연구에서 이들을 분석에서 제외하는 이유도 이해할 수 있다. 그러나 unknown peak를 단순히 제거해 버리는 순간, 연구자는 아직 발견되지 않은 생물학적 신호와 마주할 기회를 함께 잃게 된다.

Metabolomics 연구의 진짜 가치는 이미 알려진 metabolite를 다시 확인하는 데만 있는 것이 아니다. 오히려 아직 이름이 붙지 않은 신호 속에서 새로운 생물학적 가능성을 발견하는 데 있다.

따라서 metabolomics 데이터를 해석할 때 중요한 질문은 다음과 같다.

“얼마나 많은 metabolite를 identification했는가?”가 아니라
“이 데이터가 어떤 새로운 질문을 제기하고 있는가?”이다.

그리고 그 질문은 종종 unknown peak에서 시작된다.

728x90

'제약산업' 카테고리의 다른 글

Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유 (0)	2026.03.26
동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유 (0)	2026.03.25
Metabolomics에서 false discovery를 줄이는 사고 방식 (0)	2026.03.24
라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정 (1)	2026.03.23
Annotation confidence가 높아질수록 해석이 위험해지는 이유 (0)	2026.03.21
Metabolite identification이 아니라‘가설 생성 과정’으로 보는 metabolomics (0)	2026.03.20
Single-cell proteomics 미래 (1)	2026.03.19
Multi-omics에서 proteomics 역할 (0)	2026.03.18

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

제약회사 연구원의 블로그

티스토리 뷰