Imputation이 false signal을 만드는 방식

티스토리 뷰

제약산업

Imputation이 false signal을 만드는 방식

pharma_info 2026. 5. 28. 20:17

728x90

Proteomics에서 존재하지 않던 biology가 만들어지는 순간

Proteomics 데이터를 분석하다 보면 어느 순간 반드시 마주치는 문제가 있다. Missing value다.

어떤 protein은 control에서는 잘 보이는데 disease에서는 비어 있고, 어떤 peptide는 replicate 중 절반만 존재하며, low abundance signaling protein은 거의 랜덤하게 사라지는 것처럼 보인다. 처음 raw matrix를 보면 데이터가 구멍 난 스펀지처럼 느껴질 정도다.

그리고 대부분의 분석은 여기서부터 시작된다.

“빈칸을 어떻게 채울까?”

많은 사람들은 imputation을 단순한 preprocessing 정도로 생각한다. 통계를 위해 비어 있는 칸을 적절한 값으로 채우는 과정이라고 이해한다. 실제로 software pipeline도 이를 매우 자연스럽게 수행한다. Perseus, MaxQuant downstream workflow, R package, Python pipeline 대부분이 다양한 imputation 옵션을 제공한다.

문제는 여기서 채워지는 숫자가 단순 보정값이 아니라는 점이다.

Imputation은 실제로 존재하지 않았던 abundance pattern을 데이터 안에 새롭게 생성한다. 즉 biological signal을 복원하는 동시에, 존재하지 않던 biology를 만들어낼 수도 있다.

그리고 이 구조를 이해하기 시작하면 이전에는 너무 자연스럽게 보였던 volcano plot과 pathway enrichment 결과가 완전히 다르게 보이기 시작한다.

1. Missing value는 원래 “정보”다

많은 사람들이 missing value를 단순 결측으로 생각한다.

하지만 proteomics에서 missing은 상당한 정보를 담고 있다.

어떤 peptide가 사라졌다는 것은:

abundance가 너무 낮았을 수도 있고
ion suppression 영향을 받았을 수도 있으며
stochastic precursor selection에서 밀렸을 수도 있고
fragmentation quality가 부족했을 수도 있다

즉 missing은 단순 blank가 아니라 LC-MS detectability 구조의 결과다.

문제는 대부분의 downstream statistical method가 빈칸을 그대로 처리하지 못한다는 점이다.

결국 우리는 missing을 숫자로 바꾸기 시작한다.

그리고 바로 이 순간부터 새로운 signal이 생성된다.

2. Imputation은 “추정”이 아니라 “가정”이다

많은 분석자는 imputation을 mathematical reconstruction처럼 생각한다.

하지만 실제로는 biological assumption에 가깝다.

예를 들어 missing value를 low abundance 값으로 채운다고 가정해보자. 이는 곧:

“이 peptide는 존재했지만 너무 낮아서 검출되지 않았다”

라는 가정을 데이터에 강제로 주입하는 것이다.

반대로 평균값으로 채우면:

“이 peptide는 전체 population 평균 수준이었을 것이다”

라는 가정을 넣게 된다.

즉 imputation은 데이터 복원이 아니라 biological narrative 선택에 가깝다.

그리고 이 narrative에 따라 downstream biology 자체가 달라진다.

3. Left-shift imputation은 artificial fold change를 만든다

Proteomics에서 가장 흔한 방식 중 하나가 left-shifted Gaussian imputation이다.

Perseus workflow가 대표적이다.

Observed intensity distribution보다 더 낮은 영역에서 랜덤 값을 생성해 missing을 채운다. 즉 missing peptide는 low abundance였다고 가정하는 것이다.

겉보기에는 매우 합리적이다. 실제 proteomics missing 상당수는 low abundance dropout이기 때문이다.

문제는 이 방식이 differential expression을 인위적으로 강화할 수 있다는 점이다.

예를 들어:

Control sample: peptide intensity 존재
Disease sample: missing

상황에서 disease missing을 매우 낮은 값으로 채우면 fold change가 dramatic하게 커진다.

즉 원래는 단순 detectability fluctuation일 수도 있었던 현상이 strong downregulation처럼 변한다.

실제로 volcano plot에서 extreme fold change protein 상당수가 imputed value driven인 경우도 많다.

4. Replicate consistency가 fake stability를 만든다

더 위험한 문제는 replicate pattern이다.

예를 들어 disease group replicate 전체가 missing이라고 가정해보자.

Imputation은 이 모든 replicate에 비슷한 low intensity 값을 넣는다.

결과적으로:

group variance는 낮아지고
fold change는 커지며
p-value는 강해진다

즉 statistical significance까지 artificial하게 강화된다.

원래는 “안 보였다”는 불확실성이 존재했는데, imputation 이후에는 오히려 매우 안정적인 biological suppression처럼 보이기 시작한다.

이것이 imputation이 특히 위험한 이유다.

False signal이 단순 noise가 아니라 “재현성 높은 biology”처럼 보인다.

5. Low abundance biology가 가장 쉽게 왜곡된다

Proteomics에서 중요한 signaling biology는 대부분 low abundance 영역에 존재한다.

kinase
transcription factor
phosphoprotein
membrane receptor
cytokine

이들은 원래 detectability threshold 근처를 오간다.

즉 missing 발생 빈도가 매우 높다.

문제는 imputation이 바로 이 영역에 가장 강하게 개입한다는 점이다.

결국 biologically 중요한 pathway일수록 imputation artifact 영향을 크게 받는다.

실제 pathway enrichment에서 signaling pathway가 극적으로 나타났는데, 나중에 보면 상당수가 imputed peptide 기반인 경우도 적지 않다.

6. Heatmap은 imputation 이후 더 “예뻐진다”

흥미로운 현상 중 하나는 imputation 이후 데이터가 훨씬 보기 좋아진다는 점이다.

Cluster separation은 더 선명해지고, heatmap contrast는 극적으로 증가한다.

왜냐하면 missing group 전체에 비슷한 low value가 들어가기 때문이다.

즉:

Disease group → consistently low
Control group → consistently high

패턴이 artificial하게 강화된다.

연구자는 이를 매우 convincing한 biology처럼 느낀다.

하지만 실제 raw data에서는 단순히 peptide detectability fluctuation이었을 수도 있다.

즉 imputation은 visualization 자체를 biology처럼 보이게 재구성한다.

7. Pathway enrichment도 새롭게 만들어진다

Imputation artifact는 individual protein 수준에서 끝나지 않는다.

Pathway level까지 확장된다.

예를 들어 특정 signaling pathway protein들이 low abundance라서 missing이 많다고 가정해보자.

Left-shift imputation은 이 pathway 전체를 coordinated downregulation처럼 만들 수 있다.

그러면 downstream enrichment analysis에서는:

inflammatory suppression
metabolic downregulation
signaling inhibition

같은 narrative가 생성된다.

즉 실제 biology가 아니라 missing handling strategy가 pathway story를 만든다.

8. 왜 false signal은 더 believable하게 보이는가

이 문제가 특히 위험한 이유는 imputation artifact가 statistical structure까지 갖추기 때문이다.

단순 random noise가 아니다.

replicate consistency 존재
fold change 큼
variance 낮음
p-value 강함

즉 우리가 보통 “좋은 biomarker”라고 생각하는 특징을 모두 갖게 된다.

그래서 연구자는 더욱 쉽게 속는다.

실제 raw data inspection 없이 final abundance table만 보면 imputation-driven signal과 true biology를 구분하기 어렵다.

9. Machine learning에서는 문제가 더 커진다

Imputation artifact는 머신러닝 단계에서 더욱 위험해진다.

Classifier는 consistent pattern을 매우 잘 학습한다.

즉 imputed low-value structure가 disease-specific signature처럼 작동할 수 있다.

특히 small cohort proteomics에서는 model이 실제 biology보다 missing pattern을 학습하는 경우도 있다.

결과적으로 validation cohort에서 재현되지 않는 biomarker가 만들어진다.

실제 omics biomarker reproducibility crisis 상당수는 이런 hidden preprocessing dependency와 연결되어 있다.

10. Imputation이 필요 없는 것은 아니다

중요한 점은 imputation 자체가 나쁜 것은 아니라는 점이다.

문제는 “무슨 biology assumption을 넣고 있는가”를 모른 채 사용하는 것이다.

실제 proteomics missing은 완전히 제거할 수 없다.

따라서 적절한 imputation은 필요하다.

하지만 반드시 이해해야 할 것은:

Imputation은 signal recovery와 signal creation을 동시에 수행한다는 점이다.

즉 일부 true biology를 복원하는 동시에, 일부 false biology도 함께 생성한다.

11. 실무적으로 어떻게 접근해야 하는가

가장 중요한 것은 raw missing structure를 먼저 보는 것이다.

Missing이 특정 condition에 집중되는가
Low abundance 중심인가
Batch-specific pattern인가
특정 peptide class에서 반복되는가

이런 구조를 먼저 이해해야 한다.

또 imputation-dependent result를 경계해야 한다.

다양한 imputation strategy에서 동일하게 유지되는 signal인지 확인하는 것이 중요하다.

특히:

volcano plot extreme protein
pathway enrichment 핵심 node
machine learning top feature

는 raw intensity와 missing pattern을 반드시 다시 확인해야 한다.

가능하다면:

DIA acquisition
PRM validation
orthogonal assay

를 통해 missing dependency 자체를 줄이는 것이 가장 좋다.

결론

Proteomics에서 imputation은 단순 결측 보정이 아니다. 실제로는 LC-MS detectability structure 위에 새로운 biological narrative를 덧씌우는 과정에 가깝다.

Left-shift imputation은 detectability fluctuation을 dramatic fold change로 만들 수 있고, replicate missing은 artificial statistical significance를 생성하며, pathway enrichment는 존재하지 않던 coordinated biology를 만들어낼 수도 있다.

즉 imputation은 signal recovery와 false signal creation을 동시에 수행한다.

이 사실을 이해하기 시작하면 이전에는 단순 preprocessing처럼 보였던 imputation 단계가 전혀 다르게 보이기 시작한다. 왜 일부 biomarker가 validation에서 사라지는지, 왜 volcano plot extreme protein이 재현되지 않는지, 왜 machine learning model이 다른 cohort에서 무너지는지에 대한 답이 missing handling 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Multiple testing correction이 결과를 바꾸는 방식 (0)	2026.06.01
Statistical cutoff 설정의 함정 (0)	2026.05.31
Peptide redundancy가 해석을 어렵게 만드는 이유 (0)	2026.05.30
Protein inference 문제의 본질 (0)	2026.05.29
Missing value 처리 방법이 결과를 바꾸는 이유 (0)	2026.05.27
Normalization 전략 비교 (0)	2026.05.26
Ratio compression이 발생하는 구조 (0)	2026.05.25
iTRAQ/TMT 정량이 왜곡될 수 있는 이유 (0)	2026.05.24

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰