티스토리 뷰
– 데이터가 많아질수록 해석이 쉬워질 것이라는 착각

최근 생명과학 연구에서 multi-omics는 거의 하나의 표준 전략처럼 받아들여지고 있다. 유전체, 전사체, 단백질체, 대사체 데이터를 함께 분석하면 생물학적 시스템을 훨씬 더 정확하게 이해할 수 있을 것이라는 기대 때문이다. 실제로 많은 연구 설계는 다음과 같은 논리 위에서 출발한다.
- genomics → 가능한 유전자 변화
- transcriptomics → 실제 발현 변화
- proteomics → 기능 단백질 수준
- metabolomics → 최종 대사 상태
이렇게 서로 다른 층위의 정보를 연결하면 질병 메커니즘을 보다 명확하게 설명할 수 있을 것처럼 보인다. 하지만 실제 연구를 진행해 보면 예상과는 다른 현실을 마주하게 되는 경우가 많다. 여러 omics 데이터를 통합했는데도 결과 해석이 더 명확해지기는커녕 오히려 더 복잡해지는 상황이 나타나기 때문이다.
그 이유는 multi-omics 연구가 몇 가지 암묵적인 가정 위에서 진행되기 때문이다. 그리고 실제 데이터에서는 이 가정들이 생각보다 빠르게 무너진다. 이 글에서는 multi-omics 통합 분석에서 가장 먼저 깨지는 대표적인 가정들을 살펴보고자 한다.
1. “각 omics는 같은 생물학적 현상을 다른 각도에서 보여준다”는 가정
multi-omics 연구의 가장 기본적인 가정은 이것이다. 서로 다른 omics 데이터는 동일한 biological process를 서로 다른 층위에서 보여준다는 생각이다.
예를 들어 특정 metabolic pathway가 활성화되었다면 다음과 같은 변화가 나타날 것으로 기대한다.
- 관련 유전자 발현 증가
- 관련 단백질 abundance 증가
- 관련 metabolite 변화
하지만 실제 데이터에서는 이러한 일관된 패턴이 나타나는 경우가 생각보다 많지 않다. transcriptomics와 proteomics 사이의 상관관계는 일반적으로 0.3~0.5 수준에 불과하며 metabolomics와의 상관성은 더 낮아질 수 있다.
그 이유는 각 omics가 반영하는 biological layer가 서로 다르기 때문이다. gene expression, protein abundance, metabolic activity는 서로 긴밀하게 연결되어 있지만 동시에 독립적으로 조절되기도 한다.
2. “데이터가 많을수록 해석은 더 정확해진다”는 가정
multi-omics 연구에서 자주 등장하는 또 하나의 믿음은 데이터가 많아질수록 biological insight가 더 명확해질 것이라는 생각이다. 그러나 실제 분석에서는 종종 반대 현상이 나타난다.
각 omics 데이터는 이미 매우 높은 차원을 가진다. 예를 들어 일반적인 연구 규모를 보면 다음과 같다.
- transcriptomics: 수만 개의 gene
- proteomics: 수천 개의 protein
- metabolomics: 수백에서 수천 개의 feature
이 세 가지 데이터를 통합하면 분석 변수는 수만 개 수준이 된다. 반면 실제 연구에서 사용되는 샘플 수는 수십에서 수백 개 정도인 경우가 많다.
즉 multi-omics 데이터는 다음과 같은 구조를 갖는다.
변수 수 ≫ 샘플 수
이러한 환경에서는 통계 모델이 데이터에 과도하게 맞춰지는 overfitting 문제가 쉽게 발생한다. 결국 데이터가 많아질수록 분석의 자유도는 늘어나지만, 동시에 잘못된 패턴을 발견할 가능성도 증가한다.
3. “각 omics 데이터의 품질은 비슷하다”는 가정
multi-omics 분석에서는 서로 다른 플랫폼에서 생성된 데이터를 결합한다. 하지만 각 omics 데이터는 기술적 특성과 변동성이 매우 다르다.
예를 들어 다음과 같은 차이가 존재한다.
- RNA-seq → 비교적 높은 정량 정확도
- shotgun proteomics → missing value 문제 존재
- untargeted metabolomics → annotation 불확실성
이러한 차이 때문에 multi-omics 통합 분석에서는 일부 데이터가 다른 데이터보다 훨씬 큰 영향을 미칠 수 있다. 특히 metabolomics 데이터에서는 batch effect, instrument drift, peak annotation 오류 등이 결과 해석에 큰 영향을 줄 수 있다.
결국 multi-omics 데이터는 동일한 품질 수준의 정보가 아니라 서로 다른 신뢰도를 가진 데이터의 조합일 가능성이 높다.
4. “Pathway 수준에서는 결과가 일치할 것이다”라는 가정
많은 연구자들은 개별 feature 수준에서는 차이가 있더라도 pathway 수준에서는 결과가 일치할 것이라고 기대한다. 실제로 multi-omics 통합 분석의 상당수는 pathway enrichment 기반으로 이루어진다.
하지만 여기서도 문제가 발생한다. pathway 자체가 명확하게 구분된 단위가 아니기 때문이다. 실제 생물학적 네트워크에서는 하나의 단백질이나 metabolite가 여러 pathway에 동시에 관여할 수 있다.
예를 들어 glycolysis, pentose phosphate pathway, TCA cycle은 서로 강하게 연결되어 있다. 이러한 네트워크 구조 때문에 서로 다른 omics 데이터에서 pathway 해석이 서로 다른 방향을 가리킬 수 있다.
5. “시간적으로 동일한 상태를 측정하고 있다”는 가정
multi-omics 연구에서 흔히 간과되는 요소 중 하나는 시간 차이(time scale)이다.
각 omics 데이터는 서로 다른 시간 단위를 반영한다.
- DNA 변화 → 장기적 변화
- RNA 발현 → 비교적 빠른 변화
- 단백질 abundance → 중간 수준 변화
- metabolite 농도 → 매우 빠른 변화
예를 들어 세포가 특정 자극에 반응하는 상황을 생각해 보면 metabolite 변화는 수 초 내에 나타날 수 있지만 RNA 발현 변화는 수 시간 이후에 나타날 수도 있다.
이러한 시간 차이를 고려하지 않으면 multi-omics 데이터는 서로 충돌하는 것처럼 보일 수 있다.
6. “통합 분석 모델이 biological truth를 찾을 수 있다”는 가정
최근 multi-omics 연구에서는 machine learning이나 network 분석을 이용한 통합 모델이 많이 사용된다. 이러한 모델은 서로 다른 omics 데이터를 하나의 분석 구조 안에서 결합한다.
하지만 이러한 모델 역시 몇 가지 한계를 가진다. 특히 모델이 학습하는 패턴이 반드시 biological mechanism을 반영하는 것은 아니다.
예를 들어 machine learning 모델은 다음과 같은 신호도 학습할 수 있다.
- batch effect
- sample processing 차이
- cohort 특이적 패턴
이러한 요인은 특정 dataset에서는 매우 강한 signal처럼 보일 수 있지만 다른 dataset에서는 재현되지 않을 수 있다.
7. “모든 omics를 통합해야 한다”는 가정
multi-omics 연구에서는 가능한 많은 데이터를 통합하는 것이 좋은 전략처럼 보인다. 하지만 실제 연구에서는 모든 omics 데이터를 동시에 통합하는 것이 항상 최선의 방법은 아니다.
경우에 따라서는 다음과 같은 접근이 더 안정적인 결과를 제공할 수 있다.
- 각 omics 데이터를 독립적으로 분석
- 결과를 pathway 수준에서 비교
- 특정 biological question에 필요한 omics만 사용
이러한 전략은 통합 분석의 복잡성을 줄이면서도 biological insight를 유지할 수 있다.
결론
multi-omics 연구는 생명과학에서 매우 강력한 접근 방법이다. 서로 다른 biological layer의 데이터를 동시에 분석함으로써 복잡한 생명 현상을 더 깊이 이해할 수 있기 때문이다.
하지만 multi-omics 통합 분석은 몇 가지 중요한 가정 위에서 진행된다. 그리고 실제 데이터에서는 이러한 가정들이 예상보다 쉽게 무너진다.
각 omics 데이터는 서로 다른 시간 규모, 기술적 특성, 생물학적 의미를 가진다. 따라서 multi-omics 연구의 핵심은 모든 데이터를 하나의 일관된 이야기로 맞추는 것이 아니라 각 데이터가 왜 서로 다른 신호를 보여주는지 이해하는 것에 있다.
결국 좋은 multi-omics 연구는 데이터의 양에 의존하지 않는다. 대신 서로 다른 데이터가 가진 한계와 의미를 이해하고, 그 사이에서 가장 설득력 있는 생물학적 설명을 찾아가는 과정에 가깝다고 할 수 있다.
'제약산업' 카테고리의 다른 글
| Pathway 분석이 과학적 사실처럼 오해되는 순간 (0) | 2026.03.29 |
|---|---|
| Proteomics–Metabolomics 불일치가 의미하는 생물학적 메시지 (0) | 2026.03.28 |
| Transcriptomics와 Metabolomics 결과가 충돌할 때 어떻게 해석할 것인가 (0) | 2026.03.27 |
| Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유 (0) | 2026.03.26 |
| 동일한 m/z가 서로 다른 생물학적 의미를 가질 수 있는 이유 (0) | 2026.03.25 |
| Metabolomics에서 false discovery를 줄이는 사고 방식 (0) | 2026.03.24 |
| 라이브러리 매칭이 정답처럼 보이게 만드는 심리적 함정 (1) | 2026.03.23 |
| Unknown peak를 버리는 순간 잃어버리는 과학적 가능성 (0) | 2026.03.22 |
- Total
- Today
- Yesterday
- Biomarker
- ich m10
- lc-ms/ms
- 데이터
- Proteomics
- 대사체 분석
- 데이터 해석
- metabolomics
- Targeted Metabolomics
- 제약산업
- Spatial metabolomics
- LC-MS
- bioanalysis
- 시스템
- 분석
- Multi-omics
- 분석팀
- matrix effect
- 정량분석
- 바이오마커
- 임상시험
- 제약
- audit
- 미래산업
- 치료제
- 약물분석
- 신약개발
- 정밀의료
- 약물개발
- AI
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
