티스토리 뷰

728x90

– Multi-omics 연구에서 가장 먼저 결정되어야 하는 것

데이터 통합보다 중요한 ‘질문 설계’의 역할
데이터 통합보다 중요한 ‘질문 설계’의 역할

최근 생명과학 연구에서 multi-omics 통합 분석은 하나의 표준 전략처럼 자리 잡았다. 유전체(genomics), 전사체(transcriptomics), 단백질체(proteomics), 대사체(metabolomics)를 함께 분석하면 생물학적 시스템을 훨씬 더 깊이 이해할 수 있을 것이라는 기대 때문이다. 실제로 많은 연구 프로젝트는 다음과 같은 구조로 설계된다.

  • RNA-seq 데이터 확보
  • Proteomics 데이터 확보
  • Metabolomics 데이터 확보
  • 통합 분석 수행

그리고 마지막 단계에서 network 분석이나 pathway 분석을 통해 biological insight를 도출한다. 이러한 연구 설계는 매우 자연스럽게 보인다. 그러나 실제 연구를 진행해 보면 한 가지 중요한 문제가 나타난다. 데이터는 많지만 질문이 모호한 상태가 만들어지기 때문이다.

Multi-omics 연구가 기대만큼 강력한 결론을 만들어내지 못하는 이유 중 하나는 바로 이 지점에 있다. 연구 설계의 중심이 “어떤 데이터를 모을 것인가”에 맞춰지고, “어떤 질문을 해결할 것인가”는 상대적으로 뒤로 밀리는 경우가 많기 때문이다.

하지만 실제로는 그 반대에 가깝다. multi-omics 연구에서 가장 먼저 결정되어야 할 것은 데이터 종류가 아니라 질문 구조(question architecture)이다. 질문이 명확하지 않으면 데이터가 많아질수록 해석은 오히려 더 어려워진다.

1. Multi-omics 연구가 자주 빠지는 출발점의 오류

많은 multi-omics 프로젝트는 다음과 같은 방식으로 시작된다.

“가능한 많은 omics 데이터를 모아 보자.”

이 접근은 겉보기에는 합리적이다. 다양한 biological layer를 동시에 분석하면 더 많은 정보를 얻을 수 있기 때문이다. 하지만 이런 방식의 연구 설계는 종종 다음과 같은 상황으로 이어진다.

  • transcriptomics 결과와 proteomics 결과가 다름
  • metabolomics 결과가 또 다른 방향을 가리킴
  • pathway 분석 결과가 서로 충돌

결국 연구자는 수천 개의 feature와 수십 개의 pathway 결과를 가지고 있지만, 무엇을 설명해야 하는지 명확하지 않은 상태에 놓이게 된다.

이 문제의 핵심은 데이터가 부족한 것이 아니라 질문이 충분히 구조화되지 않았다는 것이다.

2. 좋은 질문은 분석 구조를 결정한다

연구 질문은 단순한 출발점 이상의 의미를 가진다. 질문은 다음과 같은 연구 요소들을 동시에 결정한다.

  • 어떤 omics 데이터를 사용할 것인가
  • 어떤 실험 설계를 사용할 것인가
  • 어떤 통계 모델을 사용할 것인가
  • 어떤 결과를 biological insight로 해석할 것인가

예를 들어 “질병 환자에서 어떤 metabolite가 변하는가?”라는 질문은 metabolomics 중심 연구로 이어진다. 반면 “이 질병에서 metabolic pathway가 어떻게 조절되는가?”라는 질문은 transcriptomics, proteomics, metabolomics의 결합을 필요로 할 수 있다.

질문 구조 자체가 multi-omics 통합의 방향을 결정한다.

3. 데이터 중심 연구의 위험

질문보다 데이터 확보가 먼저 이루어질 때 발생하는 가장 큰 문제는 해석의 방향성이 사라진다는 것이다.

Omics 데이터는 기본적으로 매우 높은 차원을 가진다. 예를 들어 다음과 같은 규모의 데이터가 흔하다.

  • RNA expression: 20,000 gene
  • protein abundance: 5,000 protein
  • metabolite feature: 1,000–10,000 feature

이러한 데이터는 통계적으로 수많은 패턴을 만들어낼 수 있다. 그러나 이 패턴 중 상당수는 실제 biological mechanism과 직접적인 관련이 없을 수도 있다.

질문이 명확하지 않으면 연구자는 결국 데이터 안에서 흥미로운 패턴을 찾는 작업을 하게 된다. 이 과정에서 발견된 결과는 통계적으로 의미가 있어 보일 수 있지만 실제 biological question과 연결되지 않을 가능성이 높다.

4. 질문 중심 연구의 특징

질문 중심 연구는 데이터 중심 연구와 몇 가지 중요한 차이를 가진다.

첫째, 연구의 초점이 명확하다.
어떤 biological mechanism을 이해하려는지 명확하기 때문에 데이터 해석의 방향이 분명하다.

둘째, 필요한 데이터만 수집한다.
모든 omics 데이터를 동시에 확보하려 하기보다, 질문에 직접적으로 필요한 데이터에 집중한다.

셋째, 결과 해석이 일관성을 가진다.
다양한 분석 결과가 동일한 biological hypothesis를 중심으로 연결된다.

이러한 구조에서는 multi-omics 데이터가 단순한 정보의 집합이 아니라 특정 가설을 검증하기 위한 증거 체계로 작동한다.

5. 질문이 없을 때 나타나는 흔한 패턴

질문 구조가 명확하지 않은 multi-omics 연구에서는 몇 가지 반복적인 패턴이 나타난다.

가장 흔한 것은 pathway 중심 결론이다. 연구 결과는 다음과 같은 형태로 정리된다.

“여러 omics 분석 결과 glycolysis pathway가 변화한 것으로 나타났다.”

하지만 이러한 결론은 종종 구체적인 biological mechanism을 설명하지 못한다. pathway 분석 결과 자체가 연구 질문을 대신하는 상황이 발생하기 때문이다.

또 다른 패턴은 feature 리스트 중심 결과이다. 수십 개 또는 수백 개의 gene, protein, metabolite가 변화했다는 결과가 제시되지만, 이 변화가 어떤 생물학적 의미를 가지는지는 명확하지 않은 경우가 많다.

6. 질문 설계가 특히 중요한 이유

질문 설계는 단순히 연구 방향을 정하는 것 이상의 역할을 한다. 특히 multi-omics 연구에서는 다음과 같은 이유로 질문 구조가 더욱 중요해진다.

첫 번째 이유는 데이터 해석의 복잡성이다. 서로 다른 omics 데이터는 서로 다른 시간 스케일과 생물학적 의미를 가진다. 따라서 명확한 질문이 없으면 데이터 간 관계를 해석하기가 매우 어렵다.

두 번째 이유는 통계적 자유도이다. multi-omics 데이터는 변수 수가 매우 많기 때문에 다양한 분석 결과를 만들어낼 수 있다. 질문이 명확하지 않으면 연구자는 의도하지 않게 특정 결과만 선택적으로 해석할 위험이 있다.

세 번째 이유는 재현성 문제이다. 질문 중심 연구는 다른 연구에서도 동일한 구조로 검증될 가능성이 높다. 반면 데이터 중심 연구는 특정 dataset에 특화된 패턴일 가능성이 크다.

7. 좋은 질문의 특징

좋은 연구 질문은 몇 가지 특징을 가진다.

첫째, 생물학적 메커니즘을 포함한다.
단순히 무엇이 변하는지를 묻기보다 왜 변화하는지를 설명하려 한다.

둘째, 측정 가능한 형태를 가진다.
실험이나 데이터 분석을 통해 검증 가능한 질문이어야 한다.

셋째, 여러 omics 데이터를 연결할 수 있다.
예를 들어 enzyme regulation, metabolic flux, signaling pathway와 같은 질문은 자연스럽게 multi-omics 데이터를 통합할 수 있다.

결론

Multi-omics 연구는 생물학적 시스템을 이해하는 강력한 접근 방법이다. 그러나 데이터의 양이 많아질수록 연구가 자동으로 더 깊어지는 것은 아니다.

실제로 많은 연구에서 가장 큰 차이를 만드는 요소는 데이터 종류가 아니라 질문 구조이다. 어떤 질문을 던지느냐에 따라 동일한 데이터에서도 완전히 다른 해석이 가능하기 때문이다.

결국 multi-omics 통합 분석의 핵심은 데이터를 최대한 많이 모으는 것이 아니다. 어떤 질문을 해결하려는지 명확하게 정의하고, 그 질문을 중심으로 데이터를 해석하는 것이 훨씬 더 중요한 출발점이 된다.

728x90