티스토리 뷰

728x90

 

Proteomics에서 Missing Value를 어떻게 해석해야 하는가
Proteomics에서 Missing Value를 어떻게 해석해야 하는가

1. Missing value는 오류가 아니라 데이터의 일부다

Proteomics 데이터에서 NA는 다음을 의미할 수 있다:

  • 단백질이 실제로 존재하지 않음
  • 농도가 검출 한계 이하
  • MS/MS sampling 실패
  • peptide 동정 실패
  • 데이터 필터링 기준 미충족

👉 즉, missing value는 “0”이 아니라 불확실성의 표현이다.

2. Missing value의 세 가지 유형

통계적으로 missing value는 세 가지로 분류된다.

2.1 MCAR (Missing Completely At Random)

특징

  • 무작위로 발생
  • abundance와 무관
  • 기술적 오류 가능성 높음

  • 파일 손상
  • peak picking 오류
  • 소프트웨어 버그

👉 가장 드물지만, 발견 시 데이터 품질 점검 필요

2.2 MAR (Missing At Random)

특징

  • 관측된 변수와 관련 있음
  • 시스템적 요인 존재

  • 특정 batch에서만 결측
  • 특정 LC run에서 감도 저하
  • sample prep 실패

👉 QC 문제 가능성 → 원인 추적 필요

2.3 MNAR (Missing Not At Random) — 가장 흔함

특징

  • abundance와 직접 관련
  • 낮은 농도일수록 결측 증가

원인

  • detection limit
  • DDA sampling 경쟁
  • ion suppression

👉 proteomics에서 대부분의 missing value는 MNAR

3. 왜 low abundance 단백질에서 missing value가 많을까

원인 1: DDA sampling 경쟁

고농도 peptide가 MS/MS 기회를 독점.

원인 2: 신호 대 잡음비 부족

S/N < threshold → 동정 실패.

원인 3: chromatographic co-elution

강한 peptide에 묻힘.

👉 즉, 결측은 존재하지 않음이 아니라 검출 실패.

4. Missing value를 잘못 해석할 때 생기는 오류

❌ NA를 0으로 처리

→ fold change 과장
→ false biomarker 생성

❌ 결측 많은 단백질 제거

→ low abundance biomarker 손실

❌ 무작위 imputation

→ 통계적 왜곡

👉 missing value 처리는 결과 신뢰도의 핵심 요소.

5. Missing value 패턴으로 원인 추정하기

✔ abundance 의존적 결측 증가

→ MNAR → detection limit 문제

✔ 특정 batch에서만 결측

→ MAR → batch effect

✔ 무작위 분포

→ MCAR → 데이터 처리 오류 가능성

👉 패턴 분석이 첫 단계.

6. DDA vs DIA에서 missing value 차이

 

항목 DDA DIA
결측 발생 빈번 드묾
원인 sampling 실패 신호 부족
데이터 연속성 낮음 높음

👉 DIA가 표준으로 이동하는 주요 이유 중 하나.

7. 생물학적 missing value의 가능성

모든 결측이 기술적 문제는 아니다.

실제 biological absence 가능 상황

  • 특정 조직에서 발현 없음
  • 질병 상태에서 발현 소실
  • knockout 모델
  • pathway inhibition

👉 하지만 기술적 결측과 구분이 핵심.

8. Missing value 처리 전략

8.1 제거 전략 (Filtering)

✔ 과도한 결측 단백질 제거
✔ 하지만 low abundance biomarker 손실 위험

8.2 Imputation 전략

✔ MNAR 가정: 낮은 값으로 대체

  • left-censored imputation
  • detection limit 기반

✔ MAR 가정: 통계적 추정

  • k-NN
  • random forest

👉 잘못된 가정은 심각한 왜곡 초래.

9. Missing value를 줄이는 실험 설계 전략

✔ DIA 사용

→ sampling 기반 결측 감소

✔ sample loading 최적화

→ low abundance 검출 개선

✔ fractionation

→ dynamic range 감소

✔ QC monitoring

→ batch 문제 조기 발견

10. Missing value가 biomarker 연구에 미치는 영향

위험

  • false positive biomarker
  • 재현성 실패
  • 코호트 의존성 증가

기회

  • low abundance biomarker 후보 신호
  • 질병 특이적 발현 소실 탐지

11. Multi-omics 통합에서의 missing value 해석

Proteomics 결측은 다른 omics와 함께 해석해야 한다.

Omics 결과
RNA 발현 있음
Protein 결측
Metabolite 변화 없음

가능한 해석:

  • translation 억제
  • protein degradation
  • 기술적 검출 실패

👉 단일 omics 해석의 위험성.

12. 핵심 메시지

Proteomics에서 missing value는 데이터의 결함이 아니라,
검출 한계와 생물학적 현실이 만나는 지점이다.

13. 기억해야 할 한 문장

“Missing value를 어떻게 처리하느냐가 아니라,
어떻게 해석하느냐가 proteomics 분석의 수준을 결정한다.”

 

14. 실무자를 위한 점검 질문

missing value를 마주했을 때:

  • abundance 의존 패턴인가?
  • batch 특정 패턴이 있는가?
  • DDA sampling 영향인가?
  • biological absence 가능성이 있는가?
  • imputation 가정이 타당한가?
728x90