티스토리 뷰

728x90

– p-value가 의미를 보장하지 않는 순간

통계적으로 유의하지만 임상적으로 무의미한 결과의 특징

 

생명과학 연구에서 통계적 유의성(statistical significance)은 매우 중요한 기준처럼 보인다. 연구 결과를 해석할 때 대부분의 논문은 p-value를 중심으로 결과를 설명한다. p-value가 0.05보다 작으면 의미 있는 결과로 간주되고, 그보다 크면 의미 없는 결과로 간주되는 경우가 많다.

그러나 실제 연구 현장, 특히 임상 연구나 omics 연구를 진행하다 보면 통계적으로는 매우 유의하지만 임상적으로는 거의 의미가 없는 결과를 자주 만나게 된다. 논문에서는 강력한 결과처럼 보이지만 실제 환자 진료나 치료 결정에는 아무런 영향을 주지 못하는 경우다.

이러한 현상은 통계 분석 자체의 문제가 아니라 통계적 질문과 임상적 질문이 서로 다르기 때문에 발생한다. 이 글에서는 통계적으로 유의하지만 임상적으로 무의미한 결과가 나타나는 전형적인 특징들을 살펴보고자 한다.

1. 효과 크기(effect size)가 매우 작다

가장 흔한 경우는 효과 크기가 매우 작은 경우이다.

예를 들어 특정 metabolite가 환자군에서 평균적으로 증가했다고 가정해 보자.

  • 환자군 평균: 1.05
  • 대조군 평균: 1.00

샘플 수가 매우 많다면 이러한 작은 차이도 통계적으로 유의하게 나타날 수 있다. 예를 들어 수천 명의 데이터를 분석하면 p-value는 매우 작게 나올 수 있다.

하지만 임상적으로 중요한 질문은 다음과 같다.

“이 차이를 이용해 환자를 구분할 수 있는가?”

평균 차이가 매우 작다면 실제 환자 개별 수준에서는 두 집단이 거의 완전히 겹칠 수 있다. 이 경우 통계적으로는 유의하지만 진단 기준으로는 사용할 수 없는 biomarker가 된다.

2. 개인 간 변동성이 너무 크다

임상적으로 유용한 biomarker는 환자 간 변동성보다 질병 효과가 더 커야 한다.

하지만 metabolomics나 proteomics 데이터에서는 종종 다음과 같은 상황이 나타난다.

  • 환자군 평균은 증가
  • 그러나 individual variation이 매우 큼

이 경우 두 집단의 분포가 크게 겹치게 된다.

예를 들어 다음과 같은 상황을 생각해 볼 수 있다.

  • 환자군 범위: 0.5–2.5
  • 대조군 범위: 0.6–2.3

평균값 차이는 존재하지만 실제 환자를 검사했을 때 그 값이 어느 집단에 속하는지 판단하기 어렵다.

이러한 biomarker는 통계적으로 유의할 수 있지만 임상 의사결정에 활용되기 어렵다.

3. 특정 코호트에만 존재하는 패턴

Omics 연구에서는 특정 데이터셋에서만 나타나는 패턴이 통계적으로 유의하게 나타나는 경우가 있다.

예를 들어 다음과 같은 상황이 발생할 수 있다.

  • 특정 병원 환자군
  • 특정 연령대
  • 특정 식습관

이러한 요인이 metabolite profile에 영향을 줄 수 있다. discovery cohort에서는 질병과 관련된 signal처럼 보이지만 다른 코호트에서는 재현되지 않는 경우가 많다.

이 경우 통계적 유의성은 특정 데이터셋의 구조를 반영한 것일 뿐 실제 biological signal이 아닐 가능성이 있다.

4. 질병 특이성이 부족한 biomarker

어떤 biomarker는 특정 질병에서 증가할 수 있지만 다른 질환에서도 동일하게 변화할 수 있다.

예를 들어 다음과 같은 biological process는 다양한 질병에서 공통적으로 나타난다.

  • 염증 반응
  • oxidative stress
  • 에너지 대사 변화

이러한 metabolite나 protein은 특정 질병 환자에서 통계적으로 증가할 수 있다. 하지만 동일한 변화가 다른 질환에서도 나타난다면 진단 biomarker로 사용하기 어렵다.

즉 통계적으로는 의미가 있지만 질병 특이성이 부족한 경우 임상적으로 활용하기 어렵다.

5. 임상 의사결정을 바꾸지 못하는 결과

임상적으로 의미 있는 결과는 의사의 행동을 변화시킬 수 있어야 한다.

예를 들어 다음과 같은 질문이 중요하다.

  • 이 검사 결과가 치료 선택을 바꾸는가
  • 환자 관리 전략을 변화시키는가
  • 예후 예측에 도움이 되는가

만약 새로운 biomarker가 기존 검사보다 조금 더 정확하더라도 실제 치료 전략이 동일하다면 임상적 가치는 제한적일 수 있다.

이 경우 연구 결과는 통계적으로 매우 흥미로울 수 있지만 실제 의료 현장에서는 거의 사용되지 않는다.

6. 복잡한 모델에 의존하는 결과

Omics 기반 연구에서는 여러 biomarker를 결합한 예측 모델이 제안되는 경우가 많다.

예를 들어 다음과 같은 형태의 결과가 보고될 수 있다.

  • 12개의 metabolite 조합
  • 머신러닝 모델 기반 분류

이러한 모델은 연구 데이터셋에서는 매우 높은 정확도를 보일 수 있다. 하지만 임상에서는 다음과 같은 문제가 발생한다.

  • 분석 방법이 복잡함
  • 검사 비용이 높음
  • 결과 해석이 어려움

이러한 이유로 실제 병원에서는 사용되기 어렵다.

결론

통계적 유의성은 과학 연구에서 중요한 기준이지만 임상적 의미를 자동으로 보장하지는 않는다.

특히 metabolomics, proteomics 같은 omics 연구에서는 다음과 같은 상황이 자주 발생한다.

  • 효과 크기가 매우 작은 경우
  • 개인 간 변동성이 큰 경우
  • 특정 코호트에 의존하는 결과
  • 질병 특이성이 부족한 biomarker
  • 임상 의사결정을 바꾸지 못하는 결과

이러한 특징을 가진 결과는 논문에서는 흥미로운 발견처럼 보일 수 있지만 실제 임상에서는 활용되기 어렵다.

결국 biomarker 연구에서 가장 중요한 질문은 단순히 “통계적으로 차이가 있는가?”가 아니라 다음과 같은 질문이어야 한다.

“이 결과가 실제 환자 치료에 어떤 변화를 만들 수 있는가?”

이 질문에 답할 수 있을 때 비로소 통계적 발견은 임상적으로 의미 있는 지식으로 발전할 수 있다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함