티스토리 뷰

— 어떤 방법을 쓰느냐에 따라 결과 자체가 바뀌는 이유
데이터 분석에서 normalization은
항상 “필수 단계”로 취급된다.
그래서 대부분의 분석 pipeline에서는
아무 고민 없이 들어간다.
- log transform
- scaling
- normalization
마치 정해진 순서처럼.
하지만 실제로 데이터를 몇 번 다뤄보면
이상한 경험을 하게 된다.
같은 데이터인데
- 어떤 normalization을 쓰느냐에 따라
→ 결과가 완전히 달라진다 - 어떤 경우에는
→ 있던 차이가 사라지고 - 어떤 경우에는
→ 없던 차이가 생긴다
이 순간부터 질문이 생긴다.
“대체 어떤 normalization이 맞는 걸까?”
먼저 이해해야 할 것: normalization은 “정답”이 없다
많은 사람들이 오해하는 부분이다.
normalization은
- 더 정확한 값을 만드는 과정이 아니라
- 특정 가정을 적용하는 과정이다
즉,
👉 데이터에 “형태”를 부여하는 작업이다
그래서 중요한 건
- 어떤 방법이 좋은가가 아니라
👉 어떤 상황에서 어떤 방법이 맞는가
1. 가장 기본: Total Intensity Normalization
개념
각 샘플의 전체 signal을 동일하게 맞춤
언제 쓰는가
- 샘플 간 total signal 차이가 기술적 요인일 때
- 대부분 feature가 변하지 않는다고 가정할 때
장점
- 간단함
- 빠름
- 직관적
치명적인 한계
👉 전체가 변하는 상황에서 완전히 틀린 결과
실무 사례
- drug treatment → 전체 metabolite 증가
하지만 normalization 후
→ 전체 증가가 사라짐
결론:
“특정 metabolite만 변화”
👉 실제 biological 변화 왜곡
추천 상황
- QC 안정적
- global shift 없음
- exploratory 분석 초기 단계
2. Median Normalization
개념
각 샘플의 median을 기준으로 scaling
특징
- outlier 영향 적음
- total intensity보다 안정적
장점
- robust
- 간단하면서 안정적
한계
👉 median 자체가 변하는 경우 문제 발생
실무 포인트
- 일부 feature만 크게 변할 때는 적합
- 하지만 전체 shift에는 취약
3. Quantile Normalization
개념
모든 샘플의 분포를 동일하게 맞춤
특징
👉 매우 강력한 방법
👉 동시에 가장 위험한 방법
장점
- batch effect 강하게 제거
- 분포 통일
치명적인 문제
👉 biological 차이까지 제거
실무 사례
- cancer vs normal
- 실제로 전체 분포 다름
quantile 적용 후
→ 두 그룹이 동일한 분포
결과:
- 진짜 차이 사라짐
- 일부 artifact 생성
추천 상황
- transcriptomics (특정 조건)
- 분포 동일하다는 가정이 명확할 때
비추천
- metabolomics
- proteomics global shift 존재 시
4. Internal Standard Normalization
개념
특정 compound를 기준으로 보정
특징
👉 가장 “이상적인” 방법처럼 보인다
장점
- 기술적 변동 보정 가능
- run 간 비교 안정
한계
👉 internal standard가 모든 analyte를 대표하지 못함
실제 문제
- matrix effect는 analyte마다 다름
- extraction efficiency도 다름
결과:
- 일부는 과보정
- 일부는 부족 보정
추천 전략
- multiple internal standard 사용
- class-specific standard 적용
5. PQN (Probabilistic Quotient Normalization)
개념
reference spectrum 대비 상대적 scaling
특징
- dilution effect 보정에 강함
장점
- metabolomics에서 매우 유용
- 전체 변화보다 상대 변화 반영
한계
👉 reference 선택에 민감
실무 팁
- QC sample 기반 reference 추천
- outlier 제거 후 적용
6. LOESS / Signal Drift Correation
개념
시간에 따른 signal drift 보정
특징
- batch 내 drift correction
장점
- LC-MS run drift 보정 가능
- QC 기반으로 안정적
한계
👉 QC 설계가 잘못되면 오히려 왜곡
추천 상황
- large batch
- long run sequence
7. Z-score / Scaling normalization
개념
mean=0, SD=1로 변환
특징
👉 비교용 normalization
👉 절대값 의미 사라짐
장점
- 패턴 분석에 유리
- clustering, PCA에 적합
한계
👉 biological magnitude 해석 불가능
🔴 가장 중요한 판단 기준
Normalization을 선택할 때
반드시 먼저 물어야 한다.
1. “전체가 변하는 상황인가?”
- YES → total/quantile 위험
- NO → 적용 가능
2. “기술적 변동이 큰가?”
- YES → internal standard / LOESS
- NO → 간단한 방법 가능
3. “목적이 무엇인가?”
- 정량 비교 → 최소 normalization
- 패턴 분석 → scaling 가능
🔬 실무 추천 workflow
이건 실제 분석에서 가장 안전한 접근이다.
Step 1: raw data 확인
- boxplot
- density plot
- total intensity
👉 이미 여기서 많은 문제 발견됨
Step 2: global shift 확인
- PCA
- mean 비교
👉 전체 변화 존재 여부 판단
Step 3: 2~3개 normalization 적용
예:
- total intensity
- median
- PQN
👉 결과 비교
Step 4: DE 결과 비교
- 공통 결과 vs 차이 확인
👉 robust signal만 선택
Step 5: biological validation
- pathway level 확인
- literature consistency
⚠️ 절대 하면 안 되는 것
1) 하나의 normalization만 믿기
→ 결과 편향 가능성 높음
2) default 설정 그대로 사용
→ dataset마다 다름
3) normalization 후만 확인
→ 반드시 전/후 비교
4) 이유 없이 quantile 사용
→ 가장 흔한 실수
📊 실제 현장에서 가장 많이 쓰는 조합
실무 기준 추천:
metabolomics
- PQN + internal standard
-
- drift correction
proteomics
- median normalization
-
- missing value 고려
exploratory 분석
- minimal normalization
-
- scaling (PCA용)
핵심 정리
Normalization은
- 데이터를 “정리”하는 과정이 아니다
👉 데이터를 “재구성”하는 과정이다
그리고
- biological signal을 살릴 수도 있고
- 완전히 지워버릴 수도 있다
결론
좋은 normalization은 없다.
다만
👉 상황에 맞는 normalization만 존재한다
그래서 가장 중요한 능력은
- 방법을 많이 아는 것이 아니라
👉 언제 의심해야 하는지 아는 것
마지막 질문
다음에 normalization을 선택할 때
이 질문을 먼저 해야 한다.
“나는 noise를 제거하고 있는 걸까,
아니면 신호를 바꾸고 있는 걸까?”
'제약산업' 카테고리의 다른 글
| Normalization이 결과를 왜곡하는 순간 (0) | 2026.04.29 |
|---|---|
| Missing value가 만들어내는 착각 (0) | 2026.04.28 |
| Proteomics에서 “보이는 것 vs 존재하는 것” (0) | 2026.04.27 |
| 통계적으로 유의하지만 biologically meaningless한 결과 (0) | 2026.04.26 |
| Volcano plot이 진실을 가리는 방식 (0) | 2026.04.25 |
| Differential expression 결과를 그대로 믿으면 안 되는 이유 (0) | 2026.04.24 |
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
| Proteomics에서 가장 위험한 착각 (0) | 2026.04.22 |
- Total
- Today
- Yesterday
- lc-ms/ms
- 정밀의료
- matrix effect
- 제약산업
- 신약개발
- metabolomics
- 미래산업
- LC-MS
- 치료제
- biological signal
- Multi-omics
- 시스템
- Biomarker
- 임상시험
- 해석
- 바이오마커
- 분석
- 데이터
- bioanalysis
- 분석팀
- 약물분석
- audit
- Targeted Metabolomics
- ich m10
- Spatial metabolomics
- 제약
- AI
- Proteomics
- 정량분석
- 대사체 분석
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
