Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조

티스토리 뷰

제약산업

Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조

pharma_info 2026. 3. 14. 20:28

728x90

1. 왜 proteomics에서 Batch effect는 metabolomics보다 더 심각한가

Metabolomics에서도 batch effect는 문제지만, proteomics에서는 다음 이유로 훨씬 증폭됩니다.

✔ 단백질은 “측정 대상”이 아니라 “추론 대상”

펩타이드 → 단백질 매핑 과정 존재
missing peptide → 단백질 정량 왜곡
batch별 peptide detection 차이 → 단백질 abundance drift

✔ 샘플 준비 과정이 길고 복잡

digestion efficiency
desalting recovery
labeling efficiency (TMT 등)

✔ 장비 조건의 미세 변화에 매우 민감

spray stability
ion transmission
collision energy drift

👉 결과:
같은 biological signal보다 batch effect가 더 크게 보이는 상황 발생

2. Batch effect가 데이터 해석을 왜곡하는 실제 패턴

2.1 PCA에서 “질병 vs 대조군” 대신 “Batch”가 분리됨

정상 패턴

PC1 → disease effect
PC2 → biological variability

문제 패턴

PC1 → batch
PC2 → disease

👉 연구자는 disease signature를 찾았다고 믿지만
👉 실제로는 분석 날짜를 구분한 것

2.2 Differential expression 결과가 batch에 따라 뒤집힘

예시:

Protein	Batch1 FC	Batch 2 FC	통합 결과
A	↑	↓	NS
B	↑	↑	↑
C	↓	↑	NS

👉 batch 간 방향성 불일치
👉 false negative 증가

2.3 Missing value 패턴이 batch별로 다름

Proteomics에서 missing value는 흔하지만
문제는 무작위가 아니라 batch-dependent일 때입니다.

예:

Protein	Batch 1	Batch 2
X	detected	missing
Y	missing	detected

👉 데이터 보정 과정에서
👉 존재하지 않는 생물학적 차이가 만들어짐

3. Batch effect가 발생하는 진짜 원인

3.1 Sample preparation drift

가장 흔하지만 과소평가되는 원인

trypsin activity lot 차이
digestion 시간 편차
lab temperature
desalting cartridge lot 차이

👉 QC peptide는 정상인데
👉 실제 단백질 recovery는 변함

3.2 LC-MS 시스템 drift

컬럼 aging
emitter contamination
pump pressure fluctuation
gradient delay volume 변화

특히 장기 프로젝트에서 심각합니다.

3.3 Data acquisition 전략의 영향

DDA

stochastic sampling
batch마다 다른 peptide 선택

DIA

더 안정적이지만
spectral library batch 의존성 존재

👉 library가 batch 1 기반이면
👉 batch 2 peptide ID 효율 저하

4. “QC가 통과했는데도 batch effect가 큰 이유”

많은 팀이 QC를 신뢰하지만, proteomics에서는 함정이 있습니다.

✔ QC는 보통 pooled sample

→ biological diversity 반영 안 됨

✔ QC peptide 수가 제한적

→ 전체 proteome 대표성 부족

✔ QC는 detection consistency만 평가

→ absolute abundance drift는 놓침

👉 QC pass ≠ batch bias 없음

5. Batch effect를 줄이기 위한 설계 전략

5.1 실험 설계 단계에서의 예방

✔ randomized injection order

disease/control 섞어서 주입

✔ batch 균형 배치

각 batch에 동일 그룹 포함

✔ reference sample 반복 측정

inter-batch normalization anchor

5.2 데이터 레벨 보정 전략

✔ normalization 방법 선택

방법	장점	위험
Total ion normalization	간단	global shift 가정
Median normalization	robust	극단값 영향
Quantile normalization	batch 차이 감소	biological signal 왜곡 가능
ComBat	강력한 batch 보정	과보정 위험

👉 핵심:
보정 후 biological signal이 유지되는지 반드시 검증

6. Batch effect를 발견하는 체크리스트

분석팀이 실제로 쓰는 체크 포인트:

✔ PCA에서 batch clustering 여부
✔ batch별 missing value 비율
✔ batch별 peptide ID 수
✔ reference sample CV drift
✔ internal standard peptide intensity drift

7. 가장 위험한 상황: Batch effect를 biological signal로 오해하는 순간

이것이 실제 연구에서 가장 치명적입니다.

실제로 발생하는 오류

잘못된 biomarker 후보 선정
재현 실패
후속 연구 비용 낭비
임상 적용 실패

👉 proteomics 재현성 위기의 핵심 원인 중 하나

마무리

Proteomics에서 batch effect는 단순한 기술적 변동이 아니라
데이터 해석의 방향 자체를 바꾸는 구조적 왜곡입니다.

특히 위험한 점은:

QC가 통과했는데도
결과는 이미 batch에 의해 결정되어 있을 수 있다는 것

이 지점을 이해하는 순간,
proteomics 데이터 해석의 관점이 완전히 달라집니다.

Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조

728x90

'제약산업' 카테고리의 다른 글

Multi-omics에서 proteomics 역할 (0)	2026.03.18
단백질 abundance vs 기능 문제 (0)	2026.03.17
Plasma proteomics 편향 (0)	2026.03.16
Biomarker 임상 적용 실패 원인 (0)	2026.03.15
Proteomics에서 Missing Value를 어떻게 해석해야 하는가 (1)	2026.03.13
Proteomics 정량 전략 비교: LFQ vs TMT (0)	2026.03.12
DIA(Data-Independent Acquisition)가 Proteomics 표준이 되는 이유 (0)	2026.03.11
Shotgun Proteomics에서 재현성이 무너지는 진짜 이유 (0)	2026.03.10

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰