Multi-omics Integration에서 발생하는 해석 오류

티스토리 뷰

제약산업

Multi-omics Integration에서 발생하는 해석 오류

pharma_info 2026. 6. 10. 20:02

728x90

데이터를 더 많이 모았는데 왜 진실에서 더 멀어질 수 있을까

몇 년 전까지만 해도 하나의 omics 데이터만 확보해도 상당히 큰 연구였다.

Transcriptomics만 수행하거나,

Proteomics만 수행하거나,

Metabolomics만 수행해도 충분히 논문이 나올 수 있었다.

하지만 최근에는 상황이 완전히 달라졌다.

이제는 다음과 같은 조합이 흔하다.

Transcriptomics + Proteomics
Proteomics + Metabolomics
Transcriptomics + Proteomics + Phosphoproteomics
Genomics + Transcriptomics + Proteomics + Metabolomics

이른바 Multi-omics integration 시대다.

연구자들은 자연스럽게 생각한다.

"데이터를 많이 모으면 더 정확한 생물학을 이해할 수 있겠지."

겉으로 보면 매우 합리적이다.

실제로 하나의 omics만 보면 보이지 않던 현상이 여러 층(layer)을 연결하면서 보이기 시작한다.

하지만 여기서 매우 흥미로운 역설이 발생한다.

데이터가 많아질수록 해석은 오히려 더 어려워진다.

그리고 Multi-omics 연구에서 나타나는 많은 오류는 데이터 부족 때문이 아니라 데이터 과잉 때문인 경우가 많다.

Proteomics를 오래 한 사람일수록 이런 경험을 한다.

Transcriptomics 결과와 Proteomics 결과가 서로 맞지 않는다.

Metabolomics 결과는 또 다른 이야기를 한다.

Network analysis는 모든 것이 연결되어 있다고 말한다.

Pathway enrichment는 수십 개의 pathway를 보여준다.

결국 연구자는 수많은 정보 속에서 자신이 보고 싶은 이야기를 선택하기 시작한다.

바로 여기서 Multi-omics 해석 오류가 시작된다.

1. Layer가 늘어난다고 진실에 가까워지는 것은 아니다

많은 사람들이 암묵적으로 갖는 가정이 있다.

Genomics

↓

Transcriptomics

↓

Proteomics

↓

Metabolomics

이렇게 아래로 갈수록 생물학적 진실에 가까워진다는 생각이다.

하지만 실제 세포는 그렇게 단순하지 않다.

각 층은 서로 연결되어 있지만 독립적인 조절도 받는다.

예를 들어:

mRNA 증가

↓

Protein 증가

라는 단순 구조를 기대하지만,

실제 데이터에서는 상당수가 일치하지 않는다.

왜냐하면:

translation regulation
protein degradation
post-translational modification

등이 개입하기 때문이다.

즉 omics layer는 서로를 설명하는 것이 아니라 서로를 보완하는 관계에 가깝다.

2. Correlation stacking의 함정

Multi-omics 연구에서 가장 흔한 오류 중 하나다.

예를 들어:

Gene A 증가

↓

Protein A 증가

↓

Metabolite A 증가

가 관찰되었다고 하자.

연구자는 쉽게 생각한다.

"Gene A가 Metabolite A 증가를 유도한다."

하지만 실제로는:

Gene A와 Metabolite A가 공통 원인의 영향을 받았을 수도 있고
Protein A는 전혀 기능하지 않을 수도 있고
Metabolite 변화는 다른 pathway 때문일 수도 있다

즉 correlation을 여러 층으로 쌓았다고 causation이 되는 것은 아니다.

3. mRNA와 Protein은 생각보다 잘 일치하지 않는다

많은 Multi-omics 연구가 암묵적으로 전제하는 것이 있다.

Transcriptomics 결과가 Proteomics 결과를 설명할 것이라는 가정이다.

하지만 실제 연구들을 보면 mRNA와 protein의 상관계수는 보통 0.3~0.6 수준이다.

생각보다 낮다.

즉:

Transcript 증가

↓

Protein 증가

가 항상 성립하지 않는다.

오히려 다음 경우가 흔하다.

mRNA 증가, protein 변화 없음
mRNA 변화 없음, protein 증가
방향 자체가 반대

이런 경우 연구자는 종종 불편해한다.

왜냐하면 스토리가 깨지기 때문이다.

4. Layer 간 불일치를 오류로 착각한다

흥미로운 점은 많은 연구자가 omics 간 불일치를 문제로 본다는 것이다.

하지만 실제로는 반대다.

그 불일치 자체가 biology일 수 있다.

예를 들어:

mRNA 증가

protein 변화 없음

이라면

translation regulation이 존재할 수 있다.

Protein 증가

metabolite 변화 없음

이라면

효소가 비활성 상태일 수 있다.

즉 불일치는 noise가 아니라 새로운 biology일 수도 있다.

5. Pathway convergence의 착시

Multi-omics integration에서 자주 등장하는 표현이 있다.

"Multiple omics layers converged on the same pathway."

굉장히 강력한 증거처럼 보인다.

하지만 주의해야 한다.

왜냐하면 많은 pathway database가 서로 같은 annotation을 사용하기 때문이다.

예를 들어:

Transcriptomics enrichment

Proteomics enrichment

Metabolomics enrichment

모두 "Inflammation"

을 가리킬 수 있다.

하지만 실제로는 같은 database bias를 반복해서 보고 있는 것일 수도 있다.

6. Database Bias가 증폭된다

Single omics에서도 database bias는 존재한다.

Multi-omics에서는 더 심해진다.

예를 들어:

Cell cycle
MAPK signaling
PI3K-AKT signaling

같은 pathway는 거의 모든 database에 풍부하게 존재한다.

결과적으로 여러 omics에서 반복적으로 나타난다.

연구자는 이를 강력한 biological evidence로 해석한다.

하지만 일부는 annotation density의 결과일 수도 있다.

7. Network Integration의 환상

Multi-omics network를 그리면 매우 아름다운 그림이 나온다.

Gene

↓

Protein

↓

Metabolite

가 연결된다.

마치 질병 메커니즘이 완벽하게 설명된 것처럼 보인다.

하지만 대부분의 연결은:

Database-derived
Literature-derived
Predicted

이다.

즉 실제 실험에서 관찰된 관계가 아니다.

Network가 복잡해질수록 신뢰성이 높아지는 것이 아니라 오히려 가정이 많아질 수 있다.

8. Temporal Mismatch 문제

각 omics layer는 서로 다른 시간 스케일로 움직인다.

Genomics는 매우 느리다.

Transcriptomics는 비교적 빠르다.

Proteomics는 중간 정도다.

Metabolomics는 매우 빠르게 변한다.

예를 들어:

Gene activation

↓

몇 시간 후 mRNA 증가

↓

몇 시간 후 protein 증가

↓

몇 분 내 metabolite 변화

가 일어날 수 있다.

하지만 대부분 연구는 한 시점에서 샘플을 채취한다.

결국 서로 다른 시간대의 현상을 억지로 연결할 위험이 있다.

9. Sample Size 문제

Multi-omics 연구는 비용이 비싸다.

결과적으로 sample 수가 적다.

예를 들어:

10명 환자

10명 대조군

수만 개 feature

이런 구조가 흔하다.

이 경우 false discovery risk가 급격히 증가한다.

특히 integration 단계에서는 우연한 상관관계가 진짜 biology처럼 보일 수 있다.

10. Missing Data가 해석을 바꾼다

Proteomics와 Metabolomics는 missing value가 많다.

Transcriptomics보다 훨씬 심하다.

문제는 integration 단계에서다.

일부 feature는 제거되고,

일부는 imputation된다.

이 과정에서 실제 biological relationship이 사라지거나 새로 생길 수 있다.

11. Machine Learning Integration의 함정

최근에는 AI 기반 multi-omics integration이 유행이다.

모델은 엄청난 정확도를 보인다.

하지만 설명 가능성(explainability)은 낮아진다.

결국:

Prediction은 성공

Mechanism은 실패

하는 경우가 많다.

즉 좋은 분류 모델이 좋은 생물학을 의미하지는 않는다.

12. Mechanism Overfitting

Multi-omics 연구에서 가장 위험한 현상이다.

데이터가 많아질수록 설명 가능한 이야기의 수도 늘어난다.

연구자는 무의식적으로 가장 그럴듯한 스토리를 선택한다.

그리고 나머지 가능성은 버린다.

결국:

Data-driven discovery

가 아니라

Story-driven interpretation

이 될 수 있다.

13. 실제로는 "모른다"가 정답인 경우도 많다

과학에서는 불확실성을 인정하는 것이 중요하다.

하지만 Multi-omics에서는 너무 많은 데이터 때문에 오히려 과신이 생긴다.

Transcriptomics도 맞고,

Proteomics도 맞고,

Metabolomics도 맞으면

모든 것이 증명된 것처럼 느껴진다.

그러나 실제로는:

모든 데이터가 동일한 bias를 공유하고 있을 수도 있다.

14. Multi-omics를 해석할 때 필요한 질문

결과를 볼 때는 다음 질문을 해야 한다.

Layer 간 관계는 실제로 검증되었는가?

단순 correlation인가?

시간 순서는 맞는가?

Temporal consistency가 존재하는가?

Database bias는 없는가?

같은 annotation을 반복해서 보고 있는 것은 아닌가?

Missing data 영향은 없는가?

Integration 과정에서 왜곡되지는 않았는가?

Alternative explanation은 없는가?

다른 메커니즘도 설명 가능한가?

결론

Multi-omics integration은 현대 생명과학에서 가장 강력한 접근법 중 하나다. 하지만 데이터 층(layer)을 많이 쌓는다고 해서 자동으로 진실에 가까워지는 것은 아니다.

Transcriptomics, Proteomics, Metabolomics는 서로 다른 생물학적 층위를 반영하며, 각 층은 고유한 조절 메커니즘과 기술적 한계를 가진다. 따라서 여러 omics에서 동일한 패턴이 보인다고 해서 그것이 곧 인과관계를 의미하지는 않는다.

오히려 Multi-omics에서는 correlation stacking, database bias amplification, temporal mismatch, network overinterpretation, mechanism overfitting 같은 새로운 해석 오류가 발생할 수 있다.

결국 Multi-omics의 목적은 하나의 완벽한 스토리를 만드는 것이 아니라, 서로 다른 층위에서 관찰된 증거들을 통해 더 정교한 가설을 만드는 데 있다.

이 사실을 이해하기 시작하면 이전에는 너무 설득력 있어 보였던 multi-omics network와 integrated pathway model이 다르게 보이기 시작한다. 왜 데이터가 많을수록 오히려 해석이 어려워지는지, 왜 서로 다른 omics가 같은 질병을 전혀 다르게 설명하는지, 왜 결국 functional validation이 여전히 필요한지에 대한 답이 바로 Multi-omics integration의 본질 안에 숨어 있기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

내부 표준(Internal Standard) 선택이 Metabolomics 정량 신뢰도에 미치는 영향 (0)	2026.06.14
샘플 보관 조건이 Metabolomics 결과를 바꿔버리는 사례 (0)	2026.06.13
전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0)	2026.06.12
재현되지 않는 Proteomics 연구의 공통된 패턴 (0)	2026.06.11
Proteomics 데이터로 Mechanism을 단정하면 위험한 이유 (0)	2026.06.09
Functional Annotation의 한계 (0)	2026.06.08
Protein interaction 데이터의 신뢰성 문제 (0)	2026.06.07
Database Bias가 해석을 왜곡하는 방식 (0)	2026.06.06

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰