티스토리 뷰

728x90

— 왜 같은 실험을 다시 하면 다른 결과가 나오는가

재현되지 않는 omics 연구의 공통된 설계 패턴
재현되지 않는 omics 연구의 공통된 설계 패턴

omics 데이터를 처음 다뤘을 때의 기억은 꽤 인상적이다.

수천, 수만 개의 변수.
그리고 그 안에서 튀어나오는 “유의미한 신호들”.

처음 결과를 보면 대부분 비슷한 생각을 한다.

“이 정도면 뭔가 잡힌 것 같은데?”

하지만 시간이 지나고,
다른 코호트에서 같은 분석을 반복해보면
상황은 전혀 다르게 흘러간다.

똑같은 방법을 썼는데도
결과는 재현되지 않는다.

이건 단순한 실수의 문제가 아니다.
많은 omics 연구들이 비슷한 방식으로 설계되고,
그 설계 자체가 재현성을 무너뜨린다.

 

1. 작은 샘플, 거대한 변수: 구조적인 불균형

omics 연구의 가장 근본적인 문제는
데이터 구조 자체에 있다.

  • 샘플 수 (n): 수십 ~ 수백
  • 변수 수 (p): 수천 ~ 수만

즉, p >> n 구조다.

이 상황에서는 어떤 일이 벌어질까?

우연히 의미 있어 보이는 변수들이
반드시 등장한다.

이건 발견(discovery)이 아니라
확률적으로 발생하는 현상에 가깝다.

문제는 이 신호들이
다른 데이터셋에서는 거의 재현되지 않는다는 점이다.

2. Feature selection의 유혹

데이터가 많을수록
연구자는 “중요한 변수만 고르고 싶어진다”.

그래서 등장하는 것이 feature selection이다.

  • p-value 기반 필터링
  • fold change 기준 선택
  • machine learning importance score 활용

문제는 이 과정이 대부분
단일 데이터셋에 최적화되어 있다는 점이다.

즉, 선택된 feature는
그 데이터에서는 잘 작동하지만
다른 데이터에서는 무너진다.

이건 모델이 잘못된 것이 아니라
선택 과정 자체가 과적합(overfitting)되어 있기 때문이다.

3. Validation이 아니라 “확인”에 가까운 검증

많은 연구에서 validation을 한다고 말한다.
하지만 실제로는 validation이 아닌 경우가 많다.

대표적인 패턴은 다음과 같다.

  • 같은 데이터에서 train/test split
  • normalization 공유
  • feature selection 후 validation

이 경우 validation set은 이미
train data의 영향을 받은 상태다.

겉보기에는 성능이 좋아 보이지만
완전히 독립된 데이터에서는 재현되지 않는다.

진짜 validation은
다음 조건을 만족해야 한다.

  • 완전히 독립된 cohort
  • 동일하지 않은 batch
  • 분석 pipeline 분리

이 조건을 만족하는 연구는 생각보다 많지 않다.

4. Batch effect: 가장 과소평가된 변수

omics 데이터에서 batch effect는
거의 피할 수 없다.

  • 분석 날짜
  • 장비 상태
  • 시약 lot
  • 실험자 차이

이 모든 것이 데이터에 영향을 준다.

문제는 많은 연구에서
이 batch effect를 충분히 통제하지 않는다는 점이다.

더 위험한 경우는
batch correction이 과도하게 적용되는 경우다.

이 경우 실제 biological signal까지
같이 제거될 수 있다.

결과적으로
다른 환경에서는 재현되지 않는
“가공된 데이터”가 만들어진다.

5. 통계적 유의성과 생물학적 의미의 혼동

omics 연구에서는
p-value가 쉽게 나온다.

왜냐하면 변수 자체가 많기 때문이다.

하지만 중요한 것은
유의성이 아니라 일관성(consistency)이다.

  • 여러 cohort에서 반복되는가
  • 다른 분석 방법에서도 유지되는가
  • biological mechanism과 연결되는가

이 기준을 통과하지 못하면
그 결과는 재현 가능성이 낮다.

6. 과도한 모델링: 설명보다 예측에 집착

최근에는 머신러닝 기반 분석이 많아졌다.

Random Forest, SVM, Neural Network 등
복잡한 모델들이 사용된다.

문제는 이 모델들이
데이터를 너무 잘 “외운다”는 점이다.

특히 sample size가 작은 상황에서는
모델 성능이 과장되기 쉽다.

  • AUC 0.95
  • Accuracy 90% 이상

이런 결과는 매력적이지만
외부 데이터에서는 급격히 무너지는 경우가 많다.

7. 결과를 정리하는 방식 자체의 문제

논문이나 보고서를 보면
항상 “가장 좋은 결과”가 강조된다.

하지만 실제 분석 과정에서는
수많은 시도가 존재한다.

  • 다양한 normalization 방법
  • 여러 feature selection 기준
  • 여러 모델

이 중에서 가장 잘 나온 결과만 보고되면
재현성은 당연히 떨어진다.

이건 의도적인 조작이 아니라
출판 구조 자체가 만든 편향이다.

8. 재현되지 않는 연구의 공통된 흐름

이 모든 요소를 종합하면
재현되지 않는 omics 연구는
대체로 다음과 같은 흐름을 가진다.

  1. 작은 샘플에서 신호 탐색
  2. feature selection으로 패턴 강화
  3. 내부 validation으로 성능 확인
  4. 시각화로 결과 강조
  5. 논문에서는 가장 좋은 결과만 보고

이 과정은 매우 자연스럽고,
많은 연구에서 반복된다.

하지만 이 흐름 자체가
재현성을 떨어뜨리는 구조다.

9. 그렇다면 어떻게 설계를 바꿔야 할까

완벽한 해결책은 없지만
방향은 분명하다.

1) 샘플 수를 늘리는 것보다 중요한 것

  • cohort 다양성 확보
  • independent dataset 확보

2) feature selection의 분리

  • train set에서만 수행
  • validation에는 절대 개입 금지

3) batch effect를 설계 단계에서 통제

  • 랜덤화
  • 균형 배치
  • metadata 기록

4) 단순한 모델부터 시작

복잡한 모델보다
재현 가능한 결과가 중요하다.

5) negative result도 포함

재현성은
성공 사례보다 실패 사례에서 더 잘 드러난다.

결론: 문제는 데이터가 아니라 설계다

omics 연구가 재현되지 않는 이유를
데이터의 복잡성 때문이라고 생각하기 쉽다.

하지만 실제로는 다르다.

문제는 데이터가 아니라
그 데이터를 다루는 방식, 즉 설계다.

비슷한 설계는 비슷한 결과를 만들고,
비슷한 오류를 반복한다.

그래서 재현되지 않는 연구들은
놀라울 정도로 닮아 있다.

좋은 연구는 복잡한 분석에서 나오지 않는다.

오히려
단순하지만 흔들리지 않는 설계에서 시작된다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함