티스토리 뷰

728x90

Normalization 방법별 비교 (실무 가이드 + 추천 전략)
Normalization 방법별 비교 (실무 가이드 + 추천 전략)

— 어떤 방법을 쓰느냐에 따라 결과 자체가 바뀌는 이유

데이터 분석에서 normalization은
항상 “필수 단계”로 취급된다.

그래서 대부분의 분석 pipeline에서는
아무 고민 없이 들어간다.

  • log transform
  • scaling
  • normalization

마치 정해진 순서처럼.

하지만 실제로 데이터를 몇 번 다뤄보면
이상한 경험을 하게 된다.

같은 데이터인데

  • 어떤 normalization을 쓰느냐에 따라
    → 결과가 완전히 달라진다
  • 어떤 경우에는
    → 있던 차이가 사라지고
  • 어떤 경우에는
    → 없던 차이가 생긴다

이 순간부터 질문이 생긴다.

“대체 어떤 normalization이 맞는 걸까?”

먼저 이해해야 할 것: normalization은 “정답”이 없다

많은 사람들이 오해하는 부분이다.

normalization은

  • 더 정확한 값을 만드는 과정이 아니라
  • 특정 가정을 적용하는 과정이다

즉,

👉 데이터에 “형태”를 부여하는 작업이다

그래서 중요한 건

  • 어떤 방법이 좋은가가 아니라
    👉 어떤 상황에서 어떤 방법이 맞는가

1. 가장 기본: Total Intensity Normalization

개념

각 샘플의 전체 signal을 동일하게 맞춤

언제 쓰는가

  • 샘플 간 total signal 차이가 기술적 요인일 때
  • 대부분 feature가 변하지 않는다고 가정할 때

장점

  • 간단함
  • 빠름
  • 직관적

치명적인 한계

👉 전체가 변하는 상황에서 완전히 틀린 결과

실무 사례

  • drug treatment → 전체 metabolite 증가

하지만 normalization 후

→ 전체 증가가 사라짐

결론:

“특정 metabolite만 변화”

👉 실제 biological 변화 왜곡

추천 상황

  • QC 안정적
  • global shift 없음
  • exploratory 분석 초기 단계

2. Median Normalization

개념

각 샘플의 median을 기준으로 scaling

특징

  • outlier 영향 적음
  • total intensity보다 안정적

장점

  • robust
  • 간단하면서 안정적

한계

👉 median 자체가 변하는 경우 문제 발생

실무 포인트

  • 일부 feature만 크게 변할 때는 적합
  • 하지만 전체 shift에는 취약

3. Quantile Normalization

개념

모든 샘플의 분포를 동일하게 맞춤

특징

👉 매우 강력한 방법
👉 동시에 가장 위험한 방법

장점

  • batch effect 강하게 제거
  • 분포 통일

치명적인 문제

👉 biological 차이까지 제거

실무 사례

  • cancer vs normal
  • 실제로 전체 분포 다름

quantile 적용 후

→ 두 그룹이 동일한 분포

결과:

  • 진짜 차이 사라짐
  • 일부 artifact 생성

추천 상황

  • transcriptomics (특정 조건)
  • 분포 동일하다는 가정이 명확할 때

비추천

  • metabolomics
  • proteomics global shift 존재 시

4. Internal Standard Normalization

개념

특정 compound를 기준으로 보정

특징

👉 가장 “이상적인” 방법처럼 보인다

장점

  • 기술적 변동 보정 가능
  • run 간 비교 안정

한계

👉 internal standard가 모든 analyte를 대표하지 못함

실제 문제

  • matrix effect는 analyte마다 다름
  • extraction efficiency도 다름

결과:

  • 일부는 과보정
  • 일부는 부족 보정

추천 전략

  • multiple internal standard 사용
  • class-specific standard 적용

5. PQN (Probabilistic Quotient Normalization)

개념

reference spectrum 대비 상대적 scaling

특징

  • dilution effect 보정에 강함

장점

  • metabolomics에서 매우 유용
  • 전체 변화보다 상대 변화 반영

한계

👉 reference 선택에 민감

실무 팁

  • QC sample 기반 reference 추천
  • outlier 제거 후 적용

6. LOESS / Signal Drift Correation

개념

시간에 따른 signal drift 보정

특징

  • batch 내 drift correction

장점

  • LC-MS run drift 보정 가능
  • QC 기반으로 안정적

한계

👉 QC 설계가 잘못되면 오히려 왜곡

추천 상황

  • large batch
  • long run sequence

7. Z-score / Scaling normalization

개념

mean=0, SD=1로 변환

특징

👉 비교용 normalization
👉 절대값 의미 사라짐

장점

  • 패턴 분석에 유리
  • clustering, PCA에 적합

한계

👉 biological magnitude 해석 불가능

🔴 가장 중요한 판단 기준

Normalization을 선택할 때
반드시 먼저 물어야 한다.

1. “전체가 변하는 상황인가?”

  • YES → total/quantile 위험
  • NO → 적용 가능

2. “기술적 변동이 큰가?”

  • YES → internal standard / LOESS
  • NO → 간단한 방법 가능

3. “목적이 무엇인가?”

  • 정량 비교 → 최소 normalization
  • 패턴 분석 → scaling 가능

🔬 실무 추천 workflow

이건 실제 분석에서 가장 안전한 접근이다.

Step 1: raw data 확인

  • boxplot
  • density plot
  • total intensity

👉 이미 여기서 많은 문제 발견됨

Step 2: global shift 확인

  • PCA
  • mean 비교

👉 전체 변화 존재 여부 판단

Step 3: 2~3개 normalization 적용

예:

  • total intensity
  • median
  • PQN

👉 결과 비교

Step 4: DE 결과 비교

  • 공통 결과 vs 차이 확인

👉 robust signal만 선택

Step 5: biological validation

  • pathway level 확인
  • literature consistency

⚠️ 절대 하면 안 되는 것

1) 하나의 normalization만 믿기

→ 결과 편향 가능성 높음

2) default 설정 그대로 사용

→ dataset마다 다름

3) normalization 후만 확인

→ 반드시 전/후 비교

4) 이유 없이 quantile 사용

→ 가장 흔한 실수

📊 실제 현장에서 가장 많이 쓰는 조합

실무 기준 추천:

metabolomics

  • PQN + internal standard
    • drift correction

proteomics

  • median normalization
    • missing value 고려

exploratory 분석

  • minimal normalization
    • scaling (PCA용)

핵심 정리

Normalization은

  • 데이터를 “정리”하는 과정이 아니다
    👉 데이터를 “재구성”하는 과정이다

그리고

  • biological signal을 살릴 수도 있고
  • 완전히 지워버릴 수도 있다

결론

좋은 normalization은 없다.

다만

👉 상황에 맞는 normalization만 존재한다

그래서 가장 중요한 능력은

  • 방법을 많이 아는 것이 아니라
    👉 언제 의심해야 하는지 아는 것

마지막 질문

다음에 normalization을 선택할 때
이 질문을 먼저 해야 한다.

“나는 noise를 제거하고 있는 걸까,
아니면 신호를 바꾸고 있는 걸까?”

728x90