티스토리 뷰
– 데이터 해석이 과학에서 내러티브로 바뀌는 지점

최근 생명과학 연구에서 omics 데이터는 거의 모든 분야의 핵심 도구가 되었다. Transcriptomics, proteomics, metabolomics, epigenomics 같은 기술들은 한 번의 실험으로 수천에서 수만 개의 분자 정보를 동시에 측정할 수 있게 만들었다. 이러한 기술의 발전은 분명히 생물학 연구의 범위를 크게 넓혔다.
그러나 omics 데이터가 가진 특징 때문에 연구 해석 과정에서 한 가지 미묘한 위험이 생긴다. 데이터가 너무 많기 때문에 연구자는 거의 언제든지 설득력 있어 보이는 이야기를 만들 수 있다는 점이다.
이 글에서는 omics 데이터가 과학적 발견을 돕는 도구에서 어느 순간 ‘스토리를 만들어내는 장치’로 변하는 과정을 살펴보고, 그 과정에서 연구자가 쉽게 빠질 수 있는 해석의 함정을 이야기해보고자 한다.
1. 데이터가 많아질수록 ‘설명 가능한 패턴’도 많아진다
전통적인 생화학 연구에서는 보통 몇 개의 변수만을 다루었다. 특정 단백질 하나, 혹은 특정 대사 경로 하나가 연구의 중심이 되는 경우가 많았다.
하지만 omics 분석에서는 상황이 완전히 달라진다.
한 번의 실험에서 다음과 같은 데이터가 생성될 수 있다.
- 수천 개의 gene expression 변화
- 수천 개의 단백질 abundance 변화
- 수백~수천 개의 metabolite 변화
이러한 데이터 환경에서는 통계적으로 의미 있는 변화가 매우 많이 나타난다.
예를 들어 10,000개의 feature를 분석한다고 가정하면, 통계적 기준을 적용하더라도 상당수의 feature가 유의한 차이를 보일 수 있다.
문제는 그 다음 단계에서 시작된다.
연구자는 이 수많은 변화 중에서 생물학적으로 의미 있어 보이는 패턴을 선택하고 연결하기 시작한다. 그리고 그 과정에서 자연스럽게 하나의 이야기, 즉 연구의 narrative가 만들어진다.
이 자체는 과학 연구에서 자연스러운 과정이다. 하지만 문제는 데이터가 많을수록 여러 가지 다른 스토리가 동시에 가능해진다는 점이다.
2. Pathway 분석이 이야기 구조를 만들어낸다
Omics 연구에서 거의 항상 등장하는 단계가 있다. 바로 pathway enrichment 분석이다.
연구자가 differential feature 리스트를 만들면 다음과 같은 분석이 이어진다.
- KEGG pathway enrichment
- Gene ontology analysis
- metabolic pathway mapping
이러한 분석 결과는 종종 다음과 같은 형태로 표현된다.
“이 질병에서는 inflammatory pathway가 활성화되어 있다.”
“이 치료는 mitochondrial metabolism을 조절한다.”
이러한 문장은 매우 설득력 있게 들린다. 하지만 실제로는 다음과 같은 과정이 생략되어 있을 수 있다.
- pathway에 속한 일부 분자만 변화
- 다른 pathway에서도 유사한 변화 존재
- pathway annotation 자체의 불완전성
즉 pathway 분석은 데이터를 이해하기 쉽게 구조화해 주는 도구이지만 동시에 연구의 스토리를 강화하는 장치로도 작동할 수 있다.
3. 가설이 데이터에서 나온 것처럼 보이는 순간
Omics 연구에서 흔히 나타나는 구조는 다음과 같다.
- 대규모 데이터 생성
- differential feature 탐색
- pathway 분석
- 특정 생물학적 해석 도출
논문에서는 이 과정이 종종 다음과 같은 형태로 표현된다.
“우리는 X pathway가 질병의 핵심 메커니즘이라고 가설을 세웠고 이를 검증했다.”
하지만 실제 연구 과정을 들여다보면 종종 순서가 반대인 경우도 있다.
- 먼저 데이터에서 흥미로운 패턴 발견
- 그 패턴에 맞는 생물학적 설명 탐색
- 결과적으로 하나의 가설 구조 형성
즉 가설이 데이터를 통해 검증된 것이 아니라 데이터에서 만들어진 이야기 구조일 수도 있다.
이 과정 자체가 잘못된 것은 아니다. 많은 중요한 발견이 이런 방식으로 이루어진다. 하지만 문제는 이 과정이 논문에서 마치 처음부터 계획된 가설 검증처럼 보일 때이다.
4. Multi-omics에서 스토리는 더 강해진다
Omics 데이터가 하나만 있을 때도 해석은 복잡하다. 하지만 최근 연구에서는 여러 omics 데이터를 동시에 사용하는 경우가 많다.
예를 들어 다음과 같은 데이터가 함께 분석된다.
- transcriptomics
- proteomics
- metabolomics
이 경우 연구자는 서로 다른 데이터 사이의 연결점을 찾기 시작한다.
예를 들어 다음과 같은 구조가 만들어질 수 있다.
- 특정 gene expression 증가
- 관련 protein 증가
- 해당 pathway metabolite 변화
이러한 결과는 매우 강력한 스토리처럼 보인다.
하지만 실제 생물학 시스템에서는 transcript, protein, metabolite 사이의 관계가 항상 직선적인 것은 아니다. 많은 경우 이러한 데이터 사이에는 복잡한 조절 구조와 시간 지연이 존재한다.
그럼에도 불구하고 연구자는 자연스럽게 이 데이터들을 하나의 선형적인 이야기 구조로 연결하려는 경향을 가진다.
5. Negative 결과는 스토리에서 사라진다
Omics 연구에서 또 하나 중요한 문제는 negative result의 가시성이다.
대규모 데이터에서는 다음과 같은 상황이 흔하다.
- 많은 feature는 변화 없음
- 일부 feature는 약한 변화
- 소수 feature만 강한 변화
하지만 논문에서는 보통 다음과 같은 부분만 강조된다.
- 가장 큰 변화
- 가장 흥미로운 pathway
- 가장 설명하기 쉬운 결과
그 결과 전체 데이터의 상당 부분은 연구 narrative에서 사라진다.
이 과정은 의도적인 조작이 아니라 자연스러운 연구 과정의 일부일 수 있다. 하지만 결과적으로 omics 데이터는 객관적인 관찰 결과라기보다 선택된 스토리처럼 보일 수 있다.
6. 그렇다면 omics 데이터는 신뢰할 수 없는가
이러한 문제들을 보면 omics 연구가 지나치게 해석 중심이라는 인상을 받을 수도 있다. 하지만 이것이 omics 데이터 자체의 가치가 낮다는 의미는 아니다.
오히려 omics 데이터의 진짜 가치는 다음과 같은 부분에 있다.
- 새로운 biological hypothesis 생성
- 예상하지 못했던 pathway 발견
- 시스템 수준의 변화 탐색
즉 omics 데이터는 최종 결론을 제공하는 도구라기보다 새로운 질문을 만들어내는 도구에 가깝다.
문제는 이 과정을 때때로 확정된 생물학적 메커니즘처럼 표현할 때 발생한다.
결론
Omics 기술은 생명과학 연구에서 이전에는 불가능했던 수준의 데이터를 제공한다. 이러한 데이터는 질병 이해와 생물학 연구에 매우 중요한 통찰을 줄 수 있다.
하지만 omics 데이터가 가진 특성 때문에 연구 해석 과정에서 다음과 같은 위험도 존재한다.
- 많은 데이터 중 일부만 선택되는 문제
- pathway 분석이 narrative를 강화하는 구조
- 데이터 기반 가설이 계획된 가설처럼 보이는 문제
- multi-omics 통합에서 과도한 해석
결국 omics 데이터는 과학적 발견의 강력한 도구이지만 동시에 매우 설득력 있는 스토리를 만들어낼 수 있는 도구이기도 하다.
따라서 중요한 것은 데이터가 말해주는 이야기를 그대로 받아들이는 것이 아니라, 그 이야기가 어떤 선택과 해석 과정을 거쳐 만들어졌는지 이해하는 것이다.
'제약산업' 카테고리의 다른 글
| 임상 적용을 목표로 할 때 metabolomics 연구 설계가 달라져야 하는 이유 (0) | 2026.04.06 |
|---|---|
| Precision Medicine에서 Metabolomics가 과대평가되는 지점 (0) | 2026.04.05 |
| 통계적으로 유의하지만 임상적으로 무의미한 결과의 특징 (0) | 2026.04.04 |
| 환자 코호트가 바뀌는 순간 metabolite significance가 사라지는 이유 (0) | 2026.04.03 |
| Biomarker 후보가 실제 임상에서 실패하는 전형적인 패턴 (0) | 2026.04.02 |
| Metabolomics 결과가 임상 의사결정으로 이어지지 못하는 이유 (0) | 2026.04.01 |
| 데이터 통합보다 중요한 ‘질문 설계’의 역할 (0) | 2026.03.31 |
| Multi-omics 통합에서 가장 먼저 무너지는 가정들 (0) | 2026.03.30 |
- Total
- Today
- Yesterday
- ich m10
- 치료제
- bioanalysis
- LC-MS
- matrix effect
- 분석팀
- 약물개발
- Spatial metabolomics
- 미래산업
- 제약
- 임상시험
- 데이터
- 약물분석
- 분석
- metabolomics
- 제약산업
- 데이터 해석
- 정밀의료
- 대사체 분석
- audit
- Proteomics
- 바이오마커
- 시스템
- Biomarker
- Targeted Metabolomics
- 신약개발
- lc-ms/ms
- 정량분석
- Multi-omics
- AI
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
