티스토리 뷰

728x90

통계적으로 유의하지만 biologically meaningless한 결과
통계적으로 유의하지만 biologically meaningless한 결과

— p-value가 낮아지는 순간, 해석은 오히려 위험해진다

어느 순간부터 우리는
데이터를 이렇게 읽기 시작한다.

“p-value가 0.05보다 작다 → 의미 있다”

이건 너무 익숙해서
이제는 거의 반사처럼 이어지는 사고다.

그래서 결과를 정리할 때도
자연스럽게 이렇게 쓴다.

“이 단백질은 유의하게 증가하였다”

그리고 그 다음 문장은
거의 자동으로 따라온다.

“따라서 이 단백질은 중요한 역할을 한다”

하지만 이 두 문장 사이에는
생각보다 큰 간극이 있다.

그리고 대부분의 오류는
바로 이 간극에서 시작된다.

숫자는 명확하지만, 의미는 그렇지 않다

통계적으로 유의하다는 것은
수학적으로는 매우 명확한 개념이다.

하지만 biological 의미는
그렇지 않다.

예를 들어보자.

  • fold change: 1.05
  • p-value: 0.0001

이 데이터는
통계적으로 매우 강력하다.

하지만 질문을 바꿔보면
조금 이상해진다.

“이 변화가 실제로 의미가 있을까?”

5% 변화는
측정 오차, 환경 변화, 생리적 변동 안에
충분히 포함될 수 있는 수준이다.

즉,

통계는 확실하지만, 생물학은 애매한 상태

이게 바로
가장 흔하게 놓치는 지점이다.

왜 이런 일이 반복되는가

이유는 생각보다 단순하다.

우리는

👉 “검출 가능성”과 “의미”를
같은 것으로 착각하기 때문이다

통계는
“차이를 검출할 수 있는가”를 묻는다.

하지만 biology는
“그 차이가 중요한가”를 묻는다.

이 두 질문은 전혀 다르다.

sample size가 커질수록 의미 없는 결과는 늘어난다

데이터 수가 많아질수록
통계적 검정은 더 민감해진다.

그래서 아주 작은 차이도
유의하게 검출된다.

실제 상황

  • n = 3 → p = 0.08
  • n = 100 → p < 0.001

같은 차이지만
표본 수만 늘어났을 뿐이다.

하지만 결과 해석은 완전히 달라진다.

  • 전자는 “유의하지 않음”
  • 후자는 “매우 중요한 변화”

이건 데이터의 변화가 아니라
검출 능력의 변화

variance가 낮을수록 ‘의미 없는 확신’이 생긴다

데이터의 분산이 낮으면
p-value는 쉽게 작아진다.

그래서 이런 상황이 발생한다.

  • 변화는 작다
  • 데이터는 매우 일관적이다

→ p-value 매우 작음

이 경우 우리는
강한 확신을 갖게 된다.

하지만 biological impact는
거의 없을 수도 있다.

실제 사례 ①: housekeeping protein의 변화

여러 proteomics 연구에서
housekeeping protein이
유의하게 변하는 경우가 보고된다.

  • p-value 매우 낮음
  • fold change 작음

하지만 실제로는

  • normalization artifact
  • loading 차이

일 가능성이 높다.

즉,

통계적으로는 강하지만
해석은 틀릴 수 있는 대표 사례

fold change와 p-value의 불균형

이 두 지표는
서로 다른 것을 말한다.

  • fold change → 변화의 크기
  • p-value → 변화의 신뢰도

문제는
이 둘이 항상 일치하지 않는다는 점이다.

대표적인 두 상황

1️⃣ 작은 변화 + 낮은 p-value
→ statistically strong, biologically weak

2️⃣ 큰 변화 + 높은 p-value
→ statistically weak, biologically strong

Volcano plot에서는
첫 번째가 더 눈에 띈다.

그래서 우리는
중요한 것을 놓치고
덜 중요한 것에 집중하게 된다.

실제 사례 ②: 임상 데이터에서의 과해석

대규모 cohort 연구에서

  • 특정 단백질이 p < 0.00001로 증가

하지만 fold change는 1.1 수준

이 결과를 기반으로
질환 biomarker로 제시되었지만

후속 연구에서는

  • 재현성 낮음
  • 임상적 의미 없음

으로 결론이 났다.

biological system은 ‘threshold’ 기반으로 작동한다

통계는 연속적인 변화를 본다.

하지만 biological system은
종종 임계값(threshold)을 가진다.

예를 들어

  • enzyme activity
  • receptor binding

이런 시스템에서는

  • 10% 변화 → 영향 없음
  • 2배 변화 → 기능 변화

즉,

작은 변화는 아무 의미가 없을 수 있다

하지만 통계는
이 차이를 구분하지 않는다.

실제 사례 ③: signaling pathway 해석 오류

한 연구에서

  • pathway 관련 protein 다수 유의

하지만 각각의 fold change는 매우 작음

이걸 기반으로
“pathway activation”으로 해석

하지만 functional assay에서는

→ 실제 변화 없음

기술적 요인이 만들어내는 ‘가짜 유의성’

omics 데이터에서는
기술적 요인이 매우 크다.

  • batch effect
  • instrument drift
  • sample preparation

이런 요인들이
일관되게 작용하면

→ p-value는 매우 작아진다

하지만 그건 biological signal이 아니라
기술적 일관성이다

실제 사례 ④: batch-driven significance

  • batch 1 vs batch 2
  • 동일 biological 상태

하지만 분석 결과

→ 수십 개 단백질 유의

원인:

→ instrument condition 차이

가장 위험한 순간

데이터가 완벽하게 정리될 때다.

  • p-value 매우 낮음
  • fold change 일정
  • pathway 연결됨

이때 우리는
“이건 확실하다”고 느낀다.

하지만 실제로는

→ 가장 그럴듯하게 틀린 상태일 수 있다

우리는 왜 이런 결과를 믿게 되는가

이유는 간단하다.

p-value는
객관적인 숫자처럼 보이기 때문이다.

그리고 인간은
숫자에 약하다.

특히

  • 소수점
  • 과학적 표기

이 붙으면
더 믿게 된다.

실무에서의 대응 전략

1) effect size 먼저 보기

p-value보다 fold change를 먼저 해석

2) biological threshold 고려

실제 기능 변화 가능한 수준인지 판단

3) replicate 간 분포 확인

boxplot, raw data 확인 필수

4) orthogonal validation

  • functional assay
  • targeted quantification

5) “이게 중요한가?”를 계속 질문

통계가 아니라 biology 기준으로 판단

핵심 정리

통계적 유의성은

  • 변화의 존재를 말한다
  • 의미를 말하지 않는다

biological 의미는

  • 변화의 크기
  • 시스템의 특성
  • 기능적 영향

이 모든 것을 포함한다.

결론

p-value가 낮아지는 순간
우리는 안심한다.

“이건 맞다”

하지만 바로 그 순간
해석은 가장 위험해진다.

왜냐하면

👉 확신이 생겼기 때문이다

마지막 질문

모든 결과 앞에서
이 질문을 먼저 해야 한다.

“이 변화는 측정 가능한가,
아니면 의미 있는가?”

이 두 가지를 구분하지 못하는 순간
데이터는 언제든지
그럴듯하게 틀릴 수 있다.

728x90