티스토리 뷰

1. Missing value는 오류가 아니라 데이터의 일부다
Proteomics 데이터에서 NA는 다음을 의미할 수 있다:
- 단백질이 실제로 존재하지 않음
- 농도가 검출 한계 이하
- MS/MS sampling 실패
- peptide 동정 실패
- 데이터 필터링 기준 미충족
👉 즉, missing value는 “0”이 아니라 불확실성의 표현이다.
2. Missing value의 세 가지 유형
통계적으로 missing value는 세 가지로 분류된다.
2.1 MCAR (Missing Completely At Random)
특징
- 무작위로 발생
- abundance와 무관
- 기술적 오류 가능성 높음
예
- 파일 손상
- peak picking 오류
- 소프트웨어 버그
👉 가장 드물지만, 발견 시 데이터 품질 점검 필요
2.2 MAR (Missing At Random)
특징
- 관측된 변수와 관련 있음
- 시스템적 요인 존재
예
- 특정 batch에서만 결측
- 특정 LC run에서 감도 저하
- sample prep 실패
👉 QC 문제 가능성 → 원인 추적 필요
2.3 MNAR (Missing Not At Random) — 가장 흔함
특징
- abundance와 직접 관련
- 낮은 농도일수록 결측 증가
원인
- detection limit
- DDA sampling 경쟁
- ion suppression
👉 proteomics에서 대부분의 missing value는 MNAR
3. 왜 low abundance 단백질에서 missing value가 많을까
원인 1: DDA sampling 경쟁
고농도 peptide가 MS/MS 기회를 독점.
원인 2: 신호 대 잡음비 부족
S/N < threshold → 동정 실패.
원인 3: chromatographic co-elution
강한 peptide에 묻힘.
👉 즉, 결측은 존재하지 않음이 아니라 검출 실패.
4. Missing value를 잘못 해석할 때 생기는 오류
❌ NA를 0으로 처리
→ fold change 과장
→ false biomarker 생성
❌ 결측 많은 단백질 제거
→ low abundance biomarker 손실
❌ 무작위 imputation
→ 통계적 왜곡
👉 missing value 처리는 결과 신뢰도의 핵심 요소.
5. Missing value 패턴으로 원인 추정하기
✔ abundance 의존적 결측 증가
→ MNAR → detection limit 문제
✔ 특정 batch에서만 결측
→ MAR → batch effect
✔ 무작위 분포
→ MCAR → 데이터 처리 오류 가능성
👉 패턴 분석이 첫 단계.
6. DDA vs DIA에서 missing value 차이
| 항목 | DDA | DIA |
| 결측 발생 | 빈번 | 드묾 |
| 원인 | sampling 실패 | 신호 부족 |
| 데이터 연속성 | 낮음 | 높음 |
👉 DIA가 표준으로 이동하는 주요 이유 중 하나.
7. 생물학적 missing value의 가능성
모든 결측이 기술적 문제는 아니다.
실제 biological absence 가능 상황
- 특정 조직에서 발현 없음
- 질병 상태에서 발현 소실
- knockout 모델
- pathway inhibition
👉 하지만 기술적 결측과 구분이 핵심.
8. Missing value 처리 전략
8.1 제거 전략 (Filtering)
✔ 과도한 결측 단백질 제거
✔ 하지만 low abundance biomarker 손실 위험
8.2 Imputation 전략
✔ MNAR 가정: 낮은 값으로 대체
- left-censored imputation
- detection limit 기반
✔ MAR 가정: 통계적 추정
- k-NN
- random forest
👉 잘못된 가정은 심각한 왜곡 초래.
9. Missing value를 줄이는 실험 설계 전략
✔ DIA 사용
→ sampling 기반 결측 감소
✔ sample loading 최적화
→ low abundance 검출 개선
✔ fractionation
→ dynamic range 감소
✔ QC monitoring
→ batch 문제 조기 발견
10. Missing value가 biomarker 연구에 미치는 영향
위험
- false positive biomarker
- 재현성 실패
- 코호트 의존성 증가
기회
- low abundance biomarker 후보 신호
- 질병 특이적 발현 소실 탐지
11. Multi-omics 통합에서의 missing value 해석
Proteomics 결측은 다른 omics와 함께 해석해야 한다.
예
| Omics | 결과 |
| RNA | 발현 있음 |
| Protein | 결측 |
| Metabolite | 변화 없음 |
가능한 해석:
- translation 억제
- protein degradation
- 기술적 검출 실패
👉 단일 omics 해석의 위험성.
12. 핵심 메시지
Proteomics에서 missing value는 데이터의 결함이 아니라,
검출 한계와 생물학적 현실이 만나는 지점이다.
13. 기억해야 할 한 문장
“Missing value를 어떻게 처리하느냐가 아니라,
어떻게 해석하느냐가 proteomics 분석의 수준을 결정한다.”
14. 실무자를 위한 점검 질문
missing value를 마주했을 때:
- abundance 의존 패턴인가?
- batch 특정 패턴이 있는가?
- DDA sampling 영향인가?
- biological absence 가능성이 있는가?
- imputation 가정이 타당한가?
'제약산업' 카테고리의 다른 글
| Proteomics 정량 전략 비교: LFQ vs TMT (0) | 2026.03.12 |
|---|---|
| DIA(Data-Independent Acquisition)가 Proteomics 표준이 되는 이유 (0) | 2026.03.11 |
| Shotgun Proteomics에서 재현성이 무너지는 진짜 이유 (0) | 2026.03.10 |
| 대사체 연구에서 Negative Result가 더 중요한 이유 (0) | 2026.03.09 |
| Metabolomics에서 QC sample이 통과해도 결과를 믿기 어려운 이유 (0) | 2026.03.08 |
| Batch effect가 결과 해석을 어떻게 왜곡하는가 (1) | 2026.03.07 |
| Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법 (0) | 2026.03.06 |
| 같은 샘플인데 다른 metabolite profile이 나오는 이유 (0) | 2026.03.05 |
- Total
- Today
- Yesterday
- 데이터
- 분석
- Multi-omics
- matrix effect
- 임상시험
- 치료제
- AI
- LC-MS
- 약물개발
- 시스템
- audit
- 제약
- 정밀의료
- lc-ms/ms
- 머신러닝
- 신약 개발
- bioanalysis
- 바이오마커
- 미래산업
- 제약산업
- 분석팀
- Targeted Metabolomics
- 디지털헬스케어
- 신약개발
- 대사체 분석
- ich m10
- 정량분석
- 약물분석
- metabolomics
- Spatial metabolomics
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
