티스토리 뷰

제약산업

Missing value가 만들어내는 착각

pharma_info 2026. 4. 28. 20:32
728x90

Missing value가 만들어내는 착각
Missing value가 만들어내는 착각

— 보이지 않는 데이터가 결과를 가장 크게 바꾸는 순간

데이터를 보다 보면
가끔 이런 순간이 온다.

“왜 이 값은 비어 있을까?”

처음에는 단순하게 생각한다.

  • 측정이 안 됐나 보다
  • 값이 없나 보다

그래서 자연스럽게 이어진다.

  • missing → 0
  • missing → 무시

이 판단은 빠르고 편하다.

하지만 이 단순한 선택 하나가
전체 결과를 완전히 바꿔버리는 경우가 있다.

그리고 더 문제는
그 변화가 너무 “그럴듯하게” 보인다는 점이다.

우리는 missing을 너무 쉽게 해석한다

omics 데이터에서 missing value는
예외적인 상황이 아니다.

오히려 흔하다.

proteomics, metabolomics 모두에서
missing value는 기본적으로 존재한다.

문제는 이걸 어떻게 이해하느냐다.

많은 경우 우리는 이렇게 생각한다.

  • 값이 없다 → 존재하지 않는다

하지만 실제로는 전혀 다르다.

missing의 진짜 의미

missing value는 하나의 상태가 아니다.

여러 가지 가능성이 섞여 있다.

  • detection limit 이하
  • ion suppression
  • stochastic sampling (특히 DDA)
  • sample preparation loss
  • instrument noise

즉,

missing은 “없음”이 아니라
“확인되지 않음”에 가깝다

가장 흔한 착각: missing = 0

데이터를 정리할 때
가장 많이 하는 선택 중 하나다.

missing을 0으로 채우는 것.

겉으로 보면 문제 없어 보인다.

  • 계산 가능
  • 그래프 생성 가능
  • 분석 간단

하지만 이 선택은
데이터의 의미를 완전히 바꿔버린다.

실제 상황

  • 그룹 A: intensity 100
  • 그룹 B: missing

→ missing을 0으로 처리

결과:

  • fold change = 무한대

이 순간 우리는 이렇게 말한다.

“이건 완전히 다른 단백질이다”

하지만 실제로는

  • 그룹 B에서도 존재
  • 단지 검출 실패였을 가능성

즉,

차이가 만들어진 것이지
발견된 것이 아니다

imputation: 해결책처럼 보이는 또 다른 문제

missing을 그대로 둘 수 없기 때문에
많은 분석에서 imputation을 사용한다.

대표적인 방법들:

  • mean/median 대체
  • random value 삽입
  • low-intensity 기반 보정

이건 분명 필요하다.

하지만 동시에

새로운 데이터가 생성되는 과정이기도 하다.

실제 사례 ①: imputation 방식에 따른 결과 변화

같은 proteomics 데이터에서

  • 방법 A → 120개 DE protein
  • 방법 B → 280개 DE protein

Volcano plot 자체가 달라졌다.

특히 양 끝에 위치한
“강력한 후보”들이 크게 변했다.

이건 biological 차이가 아니라
missing 처리 방식의 차이다.

missing이 만드는 ‘가짜 극단값’

Volcano plot에서
양 끝에 위치한 점들은 항상 눈에 띈다.

큰 fold change, 낮은 p-value.

문제는 이 중 일부가
missing에서 시작된다는 점이다.

상황

  • 그룹 A: 대부분 검출
  • 그룹 B: 대부분 missing

→ imputation 적용

결과:

  • 그룹 B 값이 인위적으로 낮아짐
  • fold change 급격히 증가

그래서 그래프에는
“극적인 변화”처럼 보이는 점이 생긴다.

하지만 실제로는

👉 데이터 처리의 산물일 가능성

stochastic sampling: 존재하지만 사라지는 값

특히 DDA 기반 proteomics에서는
이 현상이 자주 발생한다.

  • 일부 peptide만 선택적으로 분석
  • run마다 선택이 달라짐

그래서

  • 같은 샘플에서도
  • 어떤 peptide는 보이고
  • 어떤 peptide는 사라진다

이걸 그대로 해석하면

→ “조건에 따라 존재가 달라진다”

하지만 실제로는

→ sampling의 결과일 뿐이다

실제 사례 ②: replicate 간 inconsistency

동일 샘플을 3번 분석했을 때

  • peptide A: 3번 모두 검출
  • peptide B: 1번만 검출

이 경우 peptide B는

  • missing 2개
  • 존재 1개

이걸 어떻게 해석하느냐에 따라
결과는 완전히 달라진다.

missing이 p-value를 왜곡하는 방식

missing value는
단순히 값이 없는 문제가 아니다.

통계 구조 자체를 바꾼다.

대표적인 영향

  • variance 계산 변화
  • sample size 감소
  • 분포 왜곡

이로 인해

→ p-value가 비정상적으로 작아지거나 커질 수 있다

실제 사례 ③: significance의 역전

같은 데이터에서

  • missing 포함 → p < 0.01
  • missing 제거 → p = 0.2

결과 해석이 완전히 달라진다.

biological signal vs technical artifact

missing value는
이 둘을 구분하기 어렵게 만든다.

상황

  • 특정 단백질이 disease에서만 검출

가능한 해석:

1️⃣ disease에서만 생성됨
2️⃣ control에서 detection 실패

이 둘은 완전히 다른 이야기다.

하지만 데이터만 보면
구분하기 어렵다.

가장 위험한 순간

데이터가 “깔끔하게 정리된 것처럼 보일 때”다.

  • missing 처리 완료
  • volcano plot 생성
  • DE 리스트 확보

이때 우리는 안심한다.

“이제 분석이 끝났다”

하지만 실제로는

👉 가장 많은 해석이 개입된 상태다

우리는 왜 missing을 과소평가하는가

이유는 간단하다.

missing은
눈에 잘 보이지 않기 때문이다.

  • 숫자가 없다
  • 그래프에서 사라진다
  • 분석에서 자동 처리된다

그래서 우리는
이걸 중요한 정보로 보지 않는다.

하지만 실제로는

👉 가장 많은 정보를 담고 있는 부분일 수도 있다

실무에서의 접근 전략

1) missing의 패턴 먼저 보기

random인지 systematic인지 확인

2) imputation 민감도 분석

방법 바꿔도 결과 유지되는지 확인

3) presence/absence 분석 병행

단순 intensity 비교 외 접근 필요

4) peptide-level 확인

단일 값 의존 금지

5) 해석 보수적으로

missing 기반 extreme 결과는 의심

핵심 정리

missing value는

  • 단순한 결측이 아니다
  • 데이터 구조의 일부다

그리고

  • fold change
  • p-value
  • volcano plot

모두에 영향을 준다.

결론

omics 데이터에서
가장 위험한 값은

극단적인 값이 아니다.

오히려

비어 있는 값이다

왜냐하면 그 빈 공간은
언제든지

  • 채워질 수 있고
  • 해석될 수 있고
  • 왜곡될 수 있기 때문이다

마지막 질문

다음에 missing value를 보게 된다면
이렇게 질문해야 한다.

“이 값은 없는 걸까,
아니면 아직 보이지 않은 걸까?”

이 질문 하나가
데이터 해석의 방향을 바꾼다.

728x90