Multiple testing correction이 결과를 바꾸는 방식

티스토리 뷰

제약산업

Multiple testing correction이 결과를 바꾸는 방식

pharma_info 2026. 6. 1. 20:29

728x90

Proteomics에서 “유의한 결과”가 사라지는 가장 조용한 순간

Proteomics 데이터를 처음 분석하면 많은 사람들이 이런 경험을 한다.

처음 t-test를 돌렸을 때는 significant protein이 수백 개 나온다. Volcano plot도 굉장히 화려하다. Disease와 control 사이 biology가 아주 선명하게 보이는 것 같다. 그런데 FDR correction을 적용하는 순간 상황이 완전히 바뀐다.

방금 전까지 빨갛게 보이던 점들이 대부분 회색으로 변한다.
유의하다고 생각했던 pathway가 사라진다.
특정 signaling protein은 더 이상 significant하지 않다.

그리고 연구자는 혼란스러워진다.

“아까는 분명 차이가 있었는데 왜 갑자기 사라진 거지?”

이 순간부터 많은 사람들이 multiple testing correction을 단순한 “더 엄격한 통계 필터” 정도로 이해하기 시작한다. 하지만 실제로는 훨씬 더 깊은 문제가 숨어 있다.

Proteomics에서는 수천 개의 protein을 동시에 비교한다. 즉 우리는 단 하나의 가설을 검정하는 것이 아니라, 수천 개의 hypothesis를 한꺼번에 다루고 있다. 그리고 바로 이 구조 때문에 “우연히 유의해 보이는 결과”가 대량으로 발생하게 된다.

Multiple testing correction은 바로 이 우연성을 제어하기 위해 등장했다. 문제는 correction이 false positive만 제거하는 것이 아니라, 실제 biology까지 함께 재구성한다는 점이다.

그리고 이 사실을 이해하기 시작하면 이전에는 너무 객관적으로 보였던 significant protein list가 전혀 다르게 보이기 시작한다.

1. 왜 proteomics에서는 false positive가 폭발적으로 늘어나는가

가장 먼저 이해해야 할 것은 p-value의 본질이다.

예를 들어 p < 0.05라는 의미는:

“실제로 차이가 없는데도 우연히 이런 결과가 나올 확률이 5% 이하”

라는 뜻이다.

문제는 proteomics에서는 이 검정을 thousands of times 반복한다는 점이다.

예를 들어 10,000개의 protein을 비교한다고 가정해보자.

만약 모든 protein이 실제로는 변화가 없더라도, 단순 확률상 약 5% 정도는 p < 0.05를 만족하게 된다.

즉:

10,000 × 0.05 = 약 500개

정도의 false positive가 자동으로 발생할 수 있다.

이것이 multiple testing problem의 시작이다.

2. “유의하다”는 말의 의미가 달라진다

단일 hypothesis testing에서는 p < 0.05가 꽤 강한 기준처럼 느껴진다.

하지만 proteomics처럼 massive parallel testing 환경에서는 의미가 완전히 달라진다.

왜냐하면 이제 p-value는:

“이 protein이 진짜 변화했는가”

뿐 아니라,

“수천 개 중 우연히 튀어나온 것인가”

까지 함께 고려해야 하기 때문이다.

즉 proteomics에서는 significance 자체가 population context 안에서 재정의된다.

3. Bonferroni correction

가장 직관적이지만 가장 잔인한 방식

Multiple testing correction의 가장 유명한 방법은 Bonferroni correction이다.

원리는 매우 단순하다.

기존 significance threshold를 test 수로 나눈다.

예를 들어:

10,000 tests
desired α = 0.05

이면:

corrected threshold = 0.05 / 10,000 = 0.000005

가 된다.

즉 p-value가 극도로 작아야만 significant로 인정된다.

장점은 false positive control이 매우 강력하다는 점이다.

하지만 proteomics에서는 문제가 크다.

실제 biology 대부분이 함께 사라진다.

특히:

low abundance protein
subtle signaling change
moderate fold difference

는 거의 살아남지 못한다.

즉 Bonferroni는 false positive를 줄이는 동시에 true biology도 강하게 제거한다.

4. FDR(False Discovery Rate)의 등장

Proteomics에서는 Bonferroni가 너무 conservative하기 때문에 보통 FDR correction을 사용한다.

대표적으로 Benjamini-Hochberg(BH) 방식이 널리 쓰인다.

FDR의 핵심 아이디어는 다르다.

“모든 false positive를 제거하자”가 아니라:

“유의하다고 선언한 결과 중 false positive 비율을 제한하자”

는 접근이다.

예를 들어 FDR 5%는:

“significant protein 중 약 5% 정도는 false positive일 수 있다”

라는 의미다.

즉 훨씬 현실적인 타협이다.

하지만 여기에도 중요한 함정이 존재한다.

5. Correction은 protein 간 경쟁을 만든다

많은 사람들이 놓치는 부분이 있다.

Multiple testing correction 이후에는 각 protein이 독립적으로 평가되지 않는다.

다른 protein들의 p-value distribution이 함께 영향을 준다.

즉 어떤 protein의 significance는:

자기 own p-value
뿐 아니라
전체 dataset 안에서 다른 protein들이 얼마나 strong signal을 가지는가

에도 의존한다.

이 말은 곧:

동일 protein이라도 dataset composition에 따라 significance가 달라질 수 있다는 뜻이다.

6. 실제 biology가 적을수록 correction은 더 가혹해진다

예를 들어 true differential protein이 매우 적은 dataset을 생각해보자.

이 경우 대부분 p-value는 uniform noise distribution처럼 보인다.

그러면 moderate signal protein도 correction 이후 쉽게 significance를 잃는다.

반대로 strong biology가 많은 dataset에서는 p-value distribution 전체가 skew되므로 상대적으로 more proteins survive할 수 있다.

즉 correction 결과는 biology 자체뿐 아니라 dataset-wide signal structure 영향을 받는다.

7. Low abundance protein이 가장 먼저 사라진다

Proteomics에서 biologically 중요한 영역은 종종 low abundance에 존재한다.

kinase
transcription factor
cytokine
receptor
phosphoprotein

이들은 detectability variability가 크고 variance도 높다.

즉 raw p-value 자체가 상대적으로 약하다.

Multiple testing correction은 이런 moderate significance protein을 preferentially 제거한다.

반면 highly abundant structural protein은 reproducibility가 좋아 survive하기 쉽다.

결국 correction은 proteome 전체를 균등하게 filtering하지 않는다.

실제 signaling biology를 preferentially 약화시킬 수 있다.

8. Volcano plot 자체가 바뀐다

Correction 전 volcano plot은 dramatic biology처럼 보인다.

하지만 FDR correction 이후에는 central cloud만 남는 경우가 많다.

이 변화는 단순 visualization 변화가 아니다.

실제로:

pathway enrichment
biomarker selection
network analysis
machine learning feature

전체가 달라질 수 있다.

즉 correction은 결과를 “조금 더 엄격하게” 만드는 수준이 아니라, downstream biology narrative 자체를 바꾼다.

9. Borderline protein의 운명은 correction에 달려 있다

가장 흥미로운 영역은 borderline protein이다.

예를 들어:

raw p = 0.004
moderate fold change

protein이 있다고 하자.

Correction 이전에는 clearly significant처럼 보인다.

하지만 전체 test 수와 p-value distribution에 따라 correction 이후 non-significant가 될 수 있다.

문제는 이런 borderline 영역에 실제 biology가 많이 존재한다는 점이다.

특히 signaling network는 often subtle coordinated shift로 작동한다.

즉 correction은 가장 dramatic한 protein만 남기고 system-level biology를 제거할 수 있다.

10. Pathway enrichment는 paradoxically 살아남을 수 있다

흥미로운 현상 중 하나는 individual protein은 significance를 잃어도 pathway enrichment는 살아남는 경우다.

왜냐하면 pathway analysis는 coordinated trend를 보기 때문이다.

즉 각각은 weak signal이지만 collectively consistent movement가 존재하면 enrichment가 유지될 수 있다.

이것은 중요한 메시지를 준다.

Proteomics biology는 종종 “개별 protein significance”보다 “network-level shift”에 더 가까울 수 있다는 점이다.

11. Multiple testing correction은 절대적 진실이 아니다

많은 사람들이 correction 이후 surviving protein만 “진짜 biology”라고 생각한다.

하지만 correction은 statistical risk management tool이지, biology detector가 아니다.

즉 correction은:

false positive 감소
동시에
false negative 증가

를 항상 함께 만든다.

그리고 proteomics처럼 noisy·high-dimensional system에서는 이 trade-off가 매우 크다.

12. 실무적으로 어떻게 접근해야 하는가

가장 중요한 것은 corrected significance만 절대적으로 믿지 않는 것이다.

Raw p-value와 corrected p-value 함께 보기

Correction 전후 landscape를 모두 확인해야 한다.

Effect size 함께 고려하기

Moderate significance라도 biological effect가 클 수 있다.

Pathway-level trend 보기

Individual protein보다 coordinated biology가 더 중요할 수 있다.

Borderline protein 무시하지 않기

특히 signaling biology는 subtle shift로 나타나는 경우가 많다.

Orthogonal validation 수행

Correction에서 탈락한 protein도 independent assay에서 살아날 수 있다.

결론

Multiple testing correction은 단순히 false positive를 줄이는 통계 절차가 아니다. 실제로는 proteomics biological landscape 자체를 다시 재구성하는 과정에 가깝다.

Bonferroni correction은 극단적으로 conservative하게 true biology까지 제거할 수 있고, FDR correction 역시 dataset-wide p-value structure에 따라 significance를 재정의한다. 특히 low abundance signaling protein과 subtle network biology는 correction 과정에서 가장 먼저 사라질 수 있다.

즉 corrected significance는 biology의 절대적 진실이라기보다, false positive risk와 false negative loss 사이에서 선택된 statistical compromise에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 객관적으로 보였던 significant protein list가 다르게 보이기 시작한다. 왜 correction 하나로 pathway가 사라지는지, 왜 borderline protein이 validation에서 살아나는지, 왜 서로 다른 연구가 같은 biology를 다르게 보고하는지에 대한 답이 multiple testing 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Network analysis가 과해석으로 이어지는 이유 (0)	2026.06.05
Proteomics에서 Causation vs Correlation 구분하는 방법 (0)	2026.06.04
Pathway enrichment가 잘못된 결론을 만드는 과정 (0)	2026.06.03
Upregulated Protein이 항상 기능 증가를 의미하지 않는 이유 (0)	2026.06.02
Statistical cutoff 설정의 함정 (0)	2026.05.31
Peptide redundancy가 해석을 어렵게 만드는 이유 (0)	2026.05.30
Protein inference 문제의 본질 (0)	2026.05.29
Imputation이 false signal을 만드는 방식 (0)	2026.05.28

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰