티스토리 뷰

728x90

Missing value 처리 방법이 결과를 바꾸는 이유
Missing value 처리 방법이 결과를 바꾸는 이유

Missing value 처리 방법이 결과를 바꾸는 이유

Proteomics에서 가장 위험한 숫자는 “0”이 아니라 “비어 있는 칸”이다

Proteomics 데이터를 처음 분석할 때 많은 사람들이 가장 당황하는 부분 중 하나가 missing value다. 어떤 protein은 control에서는 잘 보이는데 disease sample에서는 전부 비어 있고, 어떤 peptide는 replicate 중 절반만 존재하며, low abundance protein은 거의 랜덤하게 사라지는 것처럼 보인다.

처음에는 단순 측정 실패처럼 느껴진다. LC-MS가 완벽하지 않으니 일부 peptide는 못 잡을 수도 있다고 생각한다. 그래서 자연스럽게 다음 단계로 넘어간다.

“비어 있는 값을 어떻게 채울까?”

그리고 이 순간부터 proteomics 데이터는 단순 measurement가 아니라 interpretation의 영역으로 들어가기 시작한다.

왜냐하면 missing value는 단순 blank가 아니기 때문이다. 실제 biology, LC-MS detectability, DDA sampling stochasticity, ion suppression, peptide competition, sample prep variability가 모두 섞여 만들어진 결과이기 때문이다.

즉 missing value는 “없는 데이터”가 아니라, proteomics system이 어떤 signal을 보지 못했는지에 대한 흔적에 가깝다.

문제는 대부분의 분석 pipeline이 이 흔적을 숫자로 바꾸려 한다는 점이다.

그리고 바로 여기서 biological conclusion 자체가 달라지기 시작한다.

1. Proteomics에서 missing value는 정상이다

Transcriptomics에 익숙한 사람들은 proteomics missing pattern을 보고 충격을 받는 경우가 많다.

RNA-seq에서는 대부분 gene count가 matrix 안에 존재한다. 하지만 proteomics에서는 상당수 peptide와 protein이 sample마다 사라진다.

특히 DDA(Data Dependent Acquisition) 기반 proteomics에서는 missing value가 거의 구조적으로 발생한다.

왜냐하면 instrument는 모든 peptide를 측정하지 않기 때문이다.

MS1 scan에서 precursor가 보이면 instrument는 intensity가 높은 ion부터 우선 선택해 fragmentation한다. 문제는 scan cycle time이 제한되어 있다는 점이다.

즉 어떤 peptide는 이번 run에서 선택되지만, 다음 run에서는 selection priority에서 밀려 사라질 수 있다.

특히 low abundance peptide는 detectability threshold 근처를 계속 오가게 된다.

결국 missing value는 proteomics workflow 자체의 일부가 된다.

2. Missing은 random하지 않다

많은 초보 분석자들이 가장 먼저 하는 착각이 있다.

“빠진 값은 그냥 랜덤한 측정 실패겠지.”

하지만 실제 proteomics missing structure는 생각보다 매우 체계적이다.

Low abundance peptide일수록 missing probability가 높다. Hydrophobic peptide, poorly ionizing peptide, membrane protein-derived peptide 역시 자주 사라진다.

또 특정 LC gradient 영역에서는 co-elution competition 때문에 일부 precursor가 반복적으로 선택되지 않을 수 있다.

즉 missing value는 단순 blank가 아니라 detectability bias를 반영한다.

이 말은 곧, missing pattern 자체가 biology와 analytical system의 상호작용 결과라는 뜻이다.

3. Missing에는 여러 종류가 있다

Proteomics에서 missing mechanism은 크게 세 가지로 나뉜다.

MCAR (Missing Completely At Random)

완전히 랜덤하게 사라지는 경우다. Instrument interruption이나 accidental acquisition failure가 여기에 가깝다.

MAR (Missing At Random)

다른 observed variable과 관련되어 missing이 발생하는 경우다. 예를 들어 특정 intensity range peptide가 더 자주 사라지는 상황이다.

MNAR (Missing Not At Random)

가장 중요한 경우다. Peptide abundance 자체가 낮아서 detection threshold 아래로 떨어지는 경우다.

실제 proteomics missing 상당수는 MNAR 성격을 가진다.

즉 “안 보이는 이유” 자체가 abundance와 연결되어 있다.

문제는 대부분의 imputation method가 이 구조를 완벽하게 구분하지 못한다는 점이다.

4. Zero filling은 가장 위험한 선택일 수 있다

초보자가 가장 쉽게 하는 방법은 missing value를 0으로 채우는 것이다.

직관적으로는 합리적으로 보인다. 안 보였으니 없는 것이라고 생각하는 것이다.

하지만 LC-MS에서 missing은 반드시 “absence”를 의미하지 않는다.

실제로 peptide가 존재했지만:

  • ion suppression
  • stochastic precursor selection
  • low fragmentation quality
  • signal threshold 문제

때문에 detection되지 않았을 가능성이 크다.

그런데 이를 0으로 채우면 fold change가 극단적으로 커진다.

예를 들어 control intensity가 1000인데 disease sample missing을 0으로 처리하면 infinite-like differential expression이 만들어진다.

즉 detectability problem이 dramatic biology처럼 보이기 시작한다.

5. Mean/median imputation은 biology를 평탄화한다

반대로 가장 보수적인 방법은 평균값이나 median으로 채우는 방식이다.

이 방법은 variance를 줄이고 statistical stability를 높인다.

문제는 실제 biological difference까지 함께 flattening될 수 있다는 점이다.

특히 truly differential protein에서 missing이 발생한 경우, mean imputation은 condition difference를 artificial하게 줄여버린다.

즉 실제 biology가 중앙값 방향으로 끌려간다.

결국 aggressive imputation은 false positive를 만들고, conservative imputation은 true biology를 약화시킬 수 있다.

6. Low abundance assumption 기반 imputation

Proteomics에서 가장 흔한 전략 중 하나는 “missing = low abundance”라고 가정하는 방식이다.

대표적으로 Perseus 스타일 left-shifted Gaussian imputation이 있다.

관측된 intensity distribution보다 더 낮은 영역에서 랜덤 값을 생성해 missing을 채운다.

이 접근은 proteomics missing이 MNAR 구조를 가진다는 점을 반영한다는 장점이 있다.

즉 “안 보인 이유는 너무 낮아서”라는 biological assumption을 포함한다.

하지만 문제는 모든 missing이 low abundance 때문은 아니라는 점이다.

실제로는 co-isolation interference, stochastic sampling, peptide-specific detectability 문제가 섞여 있다.

그런데 모든 missing을 uniformly low abundance로 처리하면 특정 protein group이 artificial downregulation처럼 보일 수 있다.

7. Missing value는 volcano plot 자체를 바꾼다

Imputation 방법을 바꾸면 differential expression 결과는 놀라울 정도로 달라진다.

어떤 protein은 left-shift imputation에서는 strongly significant하지만, median imputation에서는 사라진다.

특히 low abundance signaling protein은 missing structure 영향을 극단적으로 받는다.

왜냐하면 원래 detectability threshold 근처에 존재하기 때문이다.

실제 proteomics dataset에서 imputation strategy만 바꿔도 volcano plot topology 자체가 변하는 경우가 많다.

즉 우리가 biological discovery라고 믿는 일부 결과는 missing 처리 방식의 산물일 수도 있다.

8. Pathway enrichment도 달라진다

더 위험한 것은 downstream biology interpretation이다.

예를 들어 특정 signaling pathway protein들이 low abundance 영역에 몰려 있다고 가정해보자.

Aggressive low-value imputation을 수행하면 해당 pathway 전체가 condition-specific suppression처럼 보일 수 있다.

반대로 conservative imputation은 실제 pathway activation을 flattening할 수도 있다.

결국 pathway enrichment 결과 자체가 missing handling strategy에 따라 달라진다.

즉 “어떤 biology가 존재하는가”가 아니라 “어떤 missing assumption을 적용했는가”가 결과를 결정하는 순간이 생긴다.

9. Missing value는 low abundance biology를 가장 먼저 흔든다

Proteomics에서 biologically 중요한 layer는 종종 low abundance 영역에 존재한다.

  • transcription factor
  • signaling kinase
  • cytokine
  • phosphoprotein
  • membrane receptor

이들은 원래 detectability margin 근처를 오간다.

즉 missing structure 영향을 가장 강하게 받는다.

반면 housekeeping protein은 거의 항상 안정적으로 detection된다.

결국 missing value 문제는 proteome 전체를 균등하게 흔드는 것이 아니라, 가장 중요한 signaling biology를 우선적으로 왜곡한다.

10. 왜 missing handling은 정답이 없는가

가장 중요한 이유는 missing mechanism 자체가 heterogeneous하기 때문이다.

실제 dataset 안에는:

  • true absence
  • stochastic missing
  • ion suppression
  • low abundance dropout
  • fragmentation failure

가 동시에 섞여 있다.

즉 단일 imputation strategy가 모든 missing을 올바르게 설명할 수 없다.

결국 missing handling은 “무엇을 biological absence로 볼 것인가”에 대한 가정 문제다.

그리고 이 가정에 따라 downstream biology가 달라진다.

11. 실무적으로 어떻게 접근해야 하는가

Proteomics에서 missing value는 단순 preprocessing issue로 다루면 안 된다.

먼저 missing pattern 자체를 분석해야 한다.

  • 특정 batch에 집중되는가
  • low intensity peptide 중심인가
  • 특정 protein class에서 반복되는가
  • condition-specific structure를 가지는가

이런 요소를 먼저 봐야 한다.

또 single imputation 결과만 신뢰하지 않는 것이 중요하다.

Different imputation strategy에서 결과 robustness를 비교해야 한다.

특히 key biological conclusion은 imputation-independent consistency를 확인할 필요가 있다.

가능하다면:

  • DIA acquisition
  • match-between-runs
  • targeted validation(PRM/SRM)

같은 방법으로 missing dependency 자체를 줄이는 것이 가장 좋다.

결론

Proteomics에서 missing value는 단순히 “빠진 데이터”가 아니다. 실제로는 LC-MS detectability, peptide competition, stochastic sampling, low abundance biology가 남긴 흔적이다.

문제는 우리가 이 흔적을 숫자로 바꾸는 순간부터 biological interpretation 자체가 달라진다는 점이다.

Zero filling은 detectability artifact를 dramatic biology처럼 만들 수 있고, median imputation은 실제 biological contrast를 flattening할 수 있으며, low-abundance assumption 기반 imputation은 pathway structure 자체를 재구성할 수 있다.

즉 missing value 처리 방법은 단순 preprocessing step이 아니라, proteome interpretation framework 자체를 결정하는 과정에 가깝다.

이 사실을 이해하기 시작하면 이전에는 그냥 비어 있는 칸처럼 보였던 missing value가 다르게 보이기 시작한다. 왜 low abundance signaling pathway가 흔들리는지, 왜 volcano plot이 imputation마다 달라지는지, 왜 일부 biomarker가 재현되지 않는지에 대한 답이 missing structure 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90