Proteomics에서 Missing Value를 어떻게 해석해야 하는가

티스토리 뷰

제약산업

Proteomics에서 Missing Value를 어떻게 해석해야 하는가

pharma_info 2026. 3. 13. 20:08

728x90

Proteomics에서 Missing Value를 어떻게 해석해야 하는가

1. Missing value는 오류가 아니라 데이터의 일부다

Proteomics 데이터에서 NA는 다음을 의미할 수 있다:

단백질이 실제로 존재하지 않음
농도가 검출 한계 이하
MS/MS sampling 실패
peptide 동정 실패
데이터 필터링 기준 미충족

👉 즉, missing value는 “0”이 아니라 불확실성의 표현이다.

2. Missing value의 세 가지 유형

통계적으로 missing value는 세 가지로 분류된다.

2.1 MCAR (Missing Completely At Random)

특징

무작위로 발생
abundance와 무관
기술적 오류 가능성 높음

예

파일 손상
peak picking 오류
소프트웨어 버그

👉 가장 드물지만, 발견 시 데이터 품질 점검 필요

2.2 MAR (Missing At Random)

특징

관측된 변수와 관련 있음
시스템적 요인 존재

예

특정 batch에서만 결측
특정 LC run에서 감도 저하
sample prep 실패

👉 QC 문제 가능성 → 원인 추적 필요

2.3 MNAR (Missing Not At Random) — 가장 흔함

특징

abundance와 직접 관련
낮은 농도일수록 결측 증가

원인

detection limit
DDA sampling 경쟁
ion suppression

👉 proteomics에서 대부분의 missing value는 MNAR

3. 왜 low abundance 단백질에서 missing value가 많을까

원인 1: DDA sampling 경쟁

고농도 peptide가 MS/MS 기회를 독점.

원인 2: 신호 대 잡음비 부족

S/N < threshold → 동정 실패.

원인 3: chromatographic co-elution

강한 peptide에 묻힘.

👉 즉, 결측은 존재하지 않음이 아니라 검출 실패.

4. Missing value를 잘못 해석할 때 생기는 오류

❌ NA를 0으로 처리

→ fold change 과장
→ false biomarker 생성

❌ 결측 많은 단백질 제거

→ low abundance biomarker 손실

❌ 무작위 imputation

→ 통계적 왜곡

👉 missing value 처리는 결과 신뢰도의 핵심 요소.

5. Missing value 패턴으로 원인 추정하기

✔ abundance 의존적 결측 증가

→ MNAR → detection limit 문제

✔ 특정 batch에서만 결측

→ MAR → batch effect

✔ 무작위 분포

→ MCAR → 데이터 처리 오류 가능성

👉 패턴 분석이 첫 단계.

6. DDA vs DIA에서 missing value 차이

항목	DDA	DIA
결측 발생	빈번	드묾
원인	sampling 실패	신호 부족
데이터 연속성	낮음	높음

👉 DIA가 표준으로 이동하는 주요 이유 중 하나.

7. 생물학적 missing value의 가능성

모든 결측이 기술적 문제는 아니다.

실제 biological absence 가능 상황

특정 조직에서 발현 없음
질병 상태에서 발현 소실
knockout 모델
pathway inhibition

👉 하지만 기술적 결측과 구분이 핵심.

8. Missing value 처리 전략

8.1 제거 전략 (Filtering)

✔ 과도한 결측 단백질 제거
✔ 하지만 low abundance biomarker 손실 위험

8.2 Imputation 전략

✔ MNAR 가정: 낮은 값으로 대체

left-censored imputation
detection limit 기반

✔ MAR 가정: 통계적 추정

k-NN
random forest

👉 잘못된 가정은 심각한 왜곡 초래.

9. Missing value를 줄이는 실험 설계 전략

✔ DIA 사용

→ sampling 기반 결측 감소

✔ sample loading 최적화

→ low abundance 검출 개선

✔ fractionation

→ dynamic range 감소

✔ QC monitoring

→ batch 문제 조기 발견

10. Missing value가 biomarker 연구에 미치는 영향

위험

false positive biomarker
재현성 실패
코호트 의존성 증가

기회

low abundance biomarker 후보 신호
질병 특이적 발현 소실 탐지

11. Multi-omics 통합에서의 missing value 해석

Proteomics 결측은 다른 omics와 함께 해석해야 한다.

예

Omics	결과
RNA	발현 있음
Protein	결측
Metabolite	변화 없음

가능한 해석:

translation 억제
protein degradation
기술적 검출 실패

👉 단일 omics 해석의 위험성.

12. 핵심 메시지

Proteomics에서 missing value는 데이터의 결함이 아니라,
검출 한계와 생물학적 현실이 만나는 지점이다.

13. 기억해야 할 한 문장

“Missing value를 어떻게 처리하느냐가 아니라,
어떻게 해석하느냐가 proteomics 분석의 수준을 결정한다.”

14. 실무자를 위한 점검 질문

missing value를 마주했을 때:

abundance 의존 패턴인가?
batch 특정 패턴이 있는가?
DDA sampling 영향인가?
biological absence 가능성이 있는가?
imputation 가정이 타당한가?

728x90

'제약산업' 카테고리의 다른 글

단백질 abundance vs 기능 문제 (0)	2026.03.17
Plasma proteomics 편향 (0)	2026.03.16
Biomarker 임상 적용 실패 원인 (0)	2026.03.15
Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조 (0)	2026.03.14
Proteomics 정량 전략 비교: LFQ vs TMT (0)	2026.03.12
DIA(Data-Independent Acquisition)가 Proteomics 표준이 되는 이유 (0)	2026.03.11
Shotgun Proteomics에서 재현성이 무너지는 진짜 이유 (0)	2026.03.10
대사체 연구에서 Negative Result가 더 중요한 이유 (0)	2026.03.09

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리 뷰