티스토리 뷰

728x90

– 데이터가 많아질수록 오히려 결과가 흔들리는 이유

Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유
Multi-omics 통합 분석이 기대만큼 재현되지 않는 이유

최근 생명과학 연구에서 가장 많이 등장하는 단어 중 하나가 multi-omics이다.
유전체, 전사체, 단백질체, 대사체 데이터를 함께 분석하면 생물학적 시스템을 더 정확하게 이해할 수 있을 것이라는 기대가 자연스럽게 따라온다. 실제로 많은 연구에서는 다음과 같은 구도를 제시한다.

  • Genomics → 가능성(가능한 유전자 변이)
  • Transcriptomics → 발현 변화
  • Proteomics → 실제 단백질 수준
  • Metabolomics → 최종 대사 상태

이 네 가지 층위를 연결하면 질병의 메커니즘을 훨씬 명확하게 설명할 수 있을 것처럼 보인다. 그래서 multi-omics 통합 분석은 종종 “systems biology의 완성 단계”처럼 이야기되기도 한다.

하지만 실제 연구 현장에서는 조금 다른 현상이 나타난다. multi-omics 데이터로 매우 인상적인 결과를 얻었다고 생각했지만, 다른 cohort에서 동일한 분석을 수행하면 결과가 재현되지 않는 경우가 적지 않다. 동일한 분석 파이프라인을 적용했음에도 불구하고 biomarker 패턴이 바뀌거나, 모델 성능이 크게 떨어지기도 한다.

이러한 현상은 단순히 데이터 품질 문제라기보다 multi-omics 데이터 구조 자체에서 비롯되는 경우가 많다. 이 글에서는 multi-omics 통합 분석이 기대만큼 재현되지 않는 이유를 몇 가지 관점에서 살펴보고자 한다.

1. 서로 다른 omics는 서로 다른 생물학적 시간을 반영한다

가장 근본적인 이유 중 하나는 각 omics 데이터가 서로 다른 biological timescale을 반영한다는 점이다.

생물학적 정보 흐름은 일반적으로 다음과 같이 설명된다.

DNA → RNA → Protein → Metabolite

하지만 이 과정은 단순한 선형 흐름이 아니다. 각 단계는 서로 다른 시간적 특성을 가진다.

예를 들어,

  • 유전자 변이는 비교적 장기적으로 안정적이다.
  • RNA 발현은 분 단위에서 변화할 수 있다.
  • 단백질 abundance는 시간에 따라 점진적으로 변한다.
  • 대사체 농도는 초 단위에서도 변할 수 있다.

즉 동일한 샘플을 분석하더라도 각 omics가 반영하는 생물학적 상태는 서로 다른 시간 지점을 반영할 수 있다. 이러한 시간 차이는 multi-omics 통합 분석에서 예상보다 약한 상관관계를 만들어 낸다.

2. Omics 간 상관관계는 생각보다 낮다

많은 연구자들은 RNA, 단백질, 대사체 데이터가 서로 강하게 연결되어 있을 것이라고 기대한다. 그러나 실제 데이터에서는 이러한 상관관계가 생각보다 낮은 경우가 많다.

예를 들어 transcriptomics와 proteomics 사이의 상관계수는 일반적으로 0.3~0.5 정도에 불과하다. 이는 상당수의 유전자에서 RNA 발현 변화가 단백질 abundance 변화로 직접 이어지지 않는다는 의미이다.

그 이유는 다음과 같은 여러 조절 단계가 존재하기 때문이다.

  • mRNA stability
  • translation efficiency
  • protein degradation
  • post-translational modification

이러한 과정 때문에 RNA 수준의 변화가 단백질 수준에서 그대로 나타나지 않는 경우가 많다. metabolomics에서는 이러한 차이가 더욱 크게 나타난다. 대사체 농도는 효소 활성, substrate availability, 세포 환경 등 다양한 요인의 영향을 받기 때문이다.

결과적으로 multi-omics 데이터를 단순히 결합한다고 해서 항상 일관된 생물학적 패턴이 나타나는 것은 아니다.

3. 데이터 차원의 폭발적인 증가

Multi-omics 통합 분석에서 또 하나 중요한 문제는 데이터 차원의 증가이다. 각각의 omics 데이터는 이미 매우 높은 차원을 가진다.

예를 들어 일반적인 분석 규모를 보면 다음과 같다.

  • transcriptomics: 20,000 gene
  • proteomics: 5,000 protein
  • metabolomics: 1,000 feature

이 세 가지 데이터를 결합하면 분석 변수의 수는 수만 개 수준이 된다. 반면 연구에서 사용되는 sample 수는 보통 수십에서 수백 개 정도이다.

즉 multi-omics 분석에서는 다음과 같은 구조가 만들어진다.

변수 수 ≫ 샘플 수

이러한 상황에서는 통계 모델이 데이터에 과도하게 맞춰지는 overfitting 문제가 쉽게 발생한다. 한 dataset에서는 매우 좋은 결과가 나오지만, 다른 dataset에서는 재현되지 않는 이유가 여기에 있다.

4. Omics 간 기술적 변동성 차이

각 omics 플랫폼은 서로 다른 수준의 기술적 변동성을 가진다.

예를 들어

  • RNA-seq 데이터는 비교적 높은 재현성을 가진다.
  • shotgun proteomics는 missing value 문제가 존재한다.
  • untargeted metabolomics는 instrument drift와 batch effect에 민감하다.

이러한 차이는 multi-omics 통합 분석에서 중요한 문제를 만든다. 서로 다른 노이즈 구조를 가진 데이터를 결합하면 분석 모델이 실제 biological signal보다 기술적 변동성에 더 크게 영향을 받을 수 있다.

특히 metabolomics 데이터에서는 batch effect나 instrument drift가 결과에 큰 영향을 줄 수 있기 때문에 multi-omics 통합 분석에서 불안정성을 증가시키는 요인이 되기도 한다.

5. Annotation 수준의 차이

또 하나 자주 간과되는 문제는 각 omics 데이터의 annotation 수준이 서로 다르다는 점이다.

Transcriptomics에서는 대부분의 gene이 잘 정의되어 있다.
Proteomics에서도 상당수 단백질이 database에 정리되어 있다.

하지만 metabolomics에서는 상황이 다르다. untargeted metabolomics 데이터에서는 상당수 feature가 정확히 identification되지 않는다.

즉 multi-omics 통합 분석에서는 다음과 같은 불균형이 존재한다.

  • genomics / transcriptomics → 높은 annotation completeness
  • metabolomics → 많은 unknown feature

이 때문에 pathway analysis나 network analysis를 수행할 때 일부 데이터만 해석에 사용되는 경우가 많다. 이러한 불균형은 결과의 재현성을 낮추는 원인이 될 수 있다.

6. 서로 다른 데이터 스케일

각 omics 데이터는 서로 다른 스케일과 분포를 가진다.

예를 들어

  • RNA-seq 데이터 → count 기반
  • proteomics → intensity 기반
  • metabolomics → peak area 기반

이러한 데이터는 분포 특성이 서로 다르기 때문에 통합 분석 전에 normalization이나 transformation이 필요하다. 하지만 어떤 방식이 가장 적절한지는 연구마다 다를 수 있다.

Normalization 방식이 조금만 달라져도 multi-omics 통합 결과가 크게 달라질 수 있기 때문에, 동일한 데이터라도 분석 방법에 따라 다른 결과가 나올 수 있다.

7. Biological heterogeneity

실제 생물학적 시스템 자체도 매우 이질적이다. 특히 인간 cohort 연구에서는 다음과 같은 요인이 metabolome과 proteome에 영향을 줄 수 있다.

  • 식이 습관
  • microbiome
  • 약물 복용
  • 생활 습관
  • 환경 노출

이러한 요인들은 유전자 수준보다 대사체 수준에서 더 크게 나타난다. 따라서 metabolomics 데이터를 포함한 multi-omics 분석에서는 biological variability가 크게 증가할 수 있다.

이 역시 결과 재현성을 낮추는 중요한 요인이다.

8. Network 해석의 복잡성

Multi-omics 분석의 궁극적인 목표는 biological network를 이해하는 것이다. 그러나 실제 metabolic network와 signaling network는 매우 복잡하게 연결되어 있다.

하나의 metabolite는 여러 pathway에 동시에 참여할 수 있으며, 하나의 protein 역시 여러 biological process에서 역할을 할 수 있다.

이러한 네트워크 구조 때문에 multi-omics 데이터에서 관찰되는 패턴을 단순한 인과 관계로 해석하기는 어렵다. 결과적으로 서로 다른 dataset에서 약간의 변화가 생기면 network interpretation도 크게 달라질 수 있다.

9. Multi-omics 분석의 현실적인 접근

이러한 이유로 최근에는 multi-omics 통합 분석을 수행할 때 조금 더 현실적인 접근이 강조되고 있다.

예를 들어 다음과 같은 전략이 사용된다.

  • 각 omics 데이터를 독립적으로 분석한 뒤 결과를 비교
  • pathway 수준에서 통합
  • machine learning 기반 feature integration
  • network-based interpretation

이러한 접근은 모든 데이터를 하나의 모델로 통합하려는 시도보다 더 안정적인 결과를 제공할 수 있다.

결론

Multi-omics 통합 분석은 분명 매우 강력한 연구 도구이다. 서로 다른 생물학적 층위를 동시에 분석함으로써 복잡한 생명 현상을 더 깊이 이해할 수 있는 가능성을 제공한다.

하지만 데이터가 많아질수록 결과가 자동으로 더 정확해지는 것은 아니다. 오히려 서로 다른 시간 규모, 기술적 변동성, 데이터 구조 차이 등이 결합되면서 결과의 재현성이 낮아질 수 있다.

따라서 multi-omics 연구에서 중요한 것은 가능한 많은 데이터를 결합하는 것이 아니라, 각 데이터가 무엇을 의미하는지 이해하면서 신중하게 통합하는 것이다. 결국 좋은 multi-omics 분석은 복잡한 데이터를 단순하게 만들기보다는, 그 복잡성을 이해하고 해석 가능한 수준으로 정리하는 과정이라고 할 수 있다.

728x90