Statistical cutoff 설정의 함정

티스토리 뷰

제약산업

Statistical cutoff 설정의 함정

pharma_info 2026. 5. 31. 19:25

728x90

p-value 하나로 biology를 자르는 순간 벌어지는 일들

Proteomics 데이터를 처음 분석하면 가장 먼저 배우는 것 중 하나가 cutoff다.

p-value < 0.05
fold change > 2
FDR < 1%

논문 대부분도 비슷한 기준을 사용한다. Volcano plot에는 빨간 점과 회색 점이 나뉘어 있고, significant protein list가 pathway analysis로 이어진다. 그래서 자연스럽게 이런 생각을 하게 된다.

“통계 기준을 통과한 protein은 진짜 biology겠지.”

실제로 statistical cutoff는 필요하다. Proteomics 데이터는 noise가 많고, thousands of proteins를 동시에 비교하기 때문에 우연한 변화도 계속 발생한다. 어떤 기준선은 반드시 필요하다.

문제는 그 cutoff가 단순한 “선”이 아니라는 점이다.

Cutoff는 실제로 continuous biological landscape를 인위적으로 두 개의 세계로 나눈다.

significant vs non-significant
regulated vs unchanged
biology vs noise

하지만 실제 biological system은 그렇게 명확하게 끊어지지 않는다.

그리고 바로 이 순간부터 많은 착각이 시작된다.

1. p-value는 effect size를 말해주지 않는다

가장 흔한 오해는 p-value가 biological importance를 의미한다고 생각하는 것이다.

하지만 p-value는 기본적으로:

“현재 데이터가 우연히 관측될 확률”

에 가까운 개념이다.

즉 p-value가 작다고 해서 biological effect가 크다는 뜻은 아니다.

예를 들어 large sample size에서는 아주 작은 abundance difference도 extremely significant하게 나올 수 있다.

반대로 biologically dramatic한 변화도 variance가 크면 non-significant가 될 수 있다.

즉 통계적 유의성과 biological importance는 완전히 다른 문제다.

그런데 proteomics에서는 이 둘이 자주 혼동된다.

2. Volcano plot은 연속 데이터를 이분법으로 바꾼다

Volcano plot을 보면 연구자는 자연스럽게 점들을 두 그룹으로 나눈다.

cutoff 밖 → 의미 있는 biology
cutoff 안 → 중요하지 않음

하지만 실제 데이터는 continuous distribution이다.

예를 들어:

protein A → p=0.049
protein B → p=0.051

차이는 거의 없을 수 있다.

그런데 cutoff 하나 때문에:

A는 “significant biomarker”
B는 “변화 없음”

처럼 취급된다.

즉 cutoff는 실제 biological continuity를 artificial category로 바꿔버린다.

3. Fold change cutoff도 생각보다 임의적이다

많은 연구에서는 fold change 기준도 함께 사용한다.

예를 들어:

FC > 2
log2FC > 1

같은 식이다.

문제는 biology가 항상 큰 fold change로만 나타나는 것이 아니라는 점이다.

특히 signaling biology에서는:

kinase activation
phosphosite modulation
transcription factor regulation

같은 변화가 매우 subtle하게 나타날 수 있다.

반대로 high abundance structural protein은 작은 technical variation만으로도 큰 fold change처럼 보일 수 있다.

즉 fold change cutoff 역시 biology를 정확히 반영하지 않는다.

4. FDR correction은 true biology도 함께 제거한다

Proteomics는 thousands of proteins를 동시에 테스트한다.

그래서 false discovery를 줄이기 위해 FDR(False Discovery Rate) correction을 사용한다.

겉보기에는 매우 합리적이다.

문제는 correction이 aggressive해질수록 true biology까지 함께 사라질 수 있다는 점이다.

특히:

low abundance protein
signaling molecule
high variance peptide

는 원래 statistical power가 낮다.

즉 실제 biological regulation이 존재해도 multiple testing correction 이후 significance를 잃기 쉽다.

결국 proteomics는 “무엇이 false positive인가”뿐 아니라 “무엇을 놓치고 있는가”의 문제도 함께 가진다.

5. Sample size가 cutoff 세계를 바꾼다

동일 biology라도 sample size에 따라 completely different conclusion이 나올 수 있다.

예를 들어 small cohort에서는:

large effect만 survive
subtle biology는 noise로 사라짐

반대로 large cohort에서는:

tiny abundance shift까지 significant

하게 된다.

즉 statistical significance는 biology 자체보다 dataset size와 strongly coupled되어 있다.

그런데 논문에서는 종종 significant 여부만 강조되고, sample size dependency는 충분히 고려되지 않는다.

6. Variance structure가 significance를 결정한다

Proteomics에서는 variance가 매우 중요하다.

동일 fold change라도:

replicate variability가 낮으면 significant
variability가 높으면 non-significant

가 된다.

문제는 variance가 biology만 반영하지 않는다는 점이다.

실제 variance에는:

sample prep variability
ion suppression
missing value structure
stochastic DDA sampling
peptide detectability fluctuation

같은 analytical artifact도 섞여 있다.

즉 cutoff는 순수 biology가 아니라 “biology + technical stability”를 평가한다.

7. Low abundance biology가 가장 먼저 사라진다

Proteomics에서 biologically 중요한 영역은 종종 low abundance에 존재한다.

transcription factor
kinase
receptor
cytokine
phosphoprotein

이들은 원래 detection variability가 크다.

즉 variance 증가 → p-value 악화 → cutoff 탈락 구조가 쉽게 발생한다.

반면 housekeeping protein은 reproducibility가 높아 significance를 얻기 쉽다.

결국 cutoff는 proteome 전체를 균등하게 filtering하지 않는다.

중요 signaling biology를 preferentially 제거할 수 있다.

8. Cutoff는 pathway 결과까지 바꾼다

Statistical cutoff 문제는 individual protein 수준에서 끝나지 않는다.

Pathway enrichment 역시 cutoff에 강하게 의존한다.

예를 들어 p-value threshold를 약간만 바꿔도:

inflammatory pathway 등장
metabolic pathway disappearance
signaling enrichment inversion

같은 현상이 발생할 수 있다.

즉 pathway biology 자체가 cutoff parameter에 의해 재구성된다.

그리고 연구자는 종종 이를 actual biological discovery로 받아들인다.

9. Machine learning에서는 더 위험해진다

Feature selection 과정에서도 cutoff 문제는 커진다.

Significant protein만 classifier에 넣으면 model은 cutoff-defined biology를 학습하게 된다.

문제는 borderline protein 중에도 biologically meaningful signal이 존재할 수 있다는 점이다.

반대로 strongly significant protein이 실제로는 technical artifact driven일 수도 있다.

즉 cutoff 기반 feature selection은 model generalizability까지 왜곡할 수 있다.

10. 왜 우리는 cutoff를 쉽게 믿게 되는가

가장 큰 이유는 cutoff가 데이터를 단순하게 만들어주기 때문이다.

Thousands of proteins 중에서:

의미 있는 것
의미 없는 것

을 빠르게 구분해주는 것처럼 보인다.

논문 작성도 훨씬 쉬워진다.

significant protein list
top pathway
biomarker candidate

를 깔끔하게 정리할 수 있기 때문이다.

하지만 실제 biology는 continuous spectrum 위에 존재한다.

Cutoff는 convenience를 위해 그 연속성을 잘라낸다.

11. 실제 데이터에서는 경계선 근처가 가장 중요할 수 있다

흥미로운 점은 biologically 중요한 protein 상당수가 cutoff 경계선 근처에 존재한다는 점이다.

특히 signaling network에서는:

small coordinated shift
moderate abundance change
subtle pathway modulation

이 핵심 역할을 하는 경우가 많다.

하지만 cutoff framework에서는 이런 protein이 쉽게 버려진다.

즉 우리는 종종 가장 dramatic한 signal만 남기고, 실제 system-level biology를 잃어버린다.

12. 실무적으로 어떻게 접근해야 하는가

Statistical cutoff 자체를 없앨 수는 없다.

하지만 cutoff를 절대적 진실처럼 다루지 않는 것이 중요하다.

Continuous distribution 자체 보기

Significant/non-significant 이분법보다 전체 trend를 함께 봐야 한다.

Effect size와 variance 함께 해석

p-value만 보지 말고 biological magnitude를 함께 고려해야 한다.

Borderline protein 무시하지 않기

경계선 근처 protein도 pathway context 안에서 볼 필요가 있다.

Multiple cutoff sensitivity 확인

Threshold 변화에 따라 결과가 얼마나 안정적인지 확인해야 한다.

Orthogonal validation 수행

특히 key biomarker는 independent validation이 중요하다.

결론

Proteomics에서 statistical cutoff는 단순 filtering 기준이 아니다. 실제로는 continuous biological landscape를 인위적으로 재구성하는 경계선에 가깝다.

p-value는 biological importance를 직접 말해주지 않으며, fold change cutoff는 subtle signaling biology를 놓칠 수 있고, FDR correction은 true biology까지 함께 제거할 수 있다. 특히 low abundance signaling protein은 variance와 detectability 문제 때문에 cutoff 구조 안에서 가장 쉽게 사라진다.

즉 significant vs non-significant 구분은 biology 자체라기보다, sample size·variance·technical stability·multiple testing correction이 함께 만든 statistical construct에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 명확해 보였던 volcano plot이 다르게 보이기 시작한다. 왜 중요한 pathway가 cutoff 하나로 사라지는지, 왜 borderline protein이 validation에서 살아나는지, 왜 서로 다른 논문이 같은 dataset에서 다른 결론을 내리는지에 대한 답이 cutoff 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Proteomics에서 Causation vs Correlation 구분하는 방법 (0)	2026.06.04
Pathway enrichment가 잘못된 결론을 만드는 과정 (0)	2026.06.03
Upregulated Protein이 항상 기능 증가를 의미하지 않는 이유 (0)	2026.06.02
Multiple testing correction이 결과를 바꾸는 방식 (0)	2026.06.01
Peptide redundancy가 해석을 어렵게 만드는 이유 (0)	2026.05.30
Protein inference 문제의 본질 (0)	2026.05.29
Imputation이 false signal을 만드는 방식 (0)	2026.05.28
Missing value 처리 방법이 결과를 바꾸는 이유 (0)	2026.05.27

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰