Batch 간 sample prep 차이가 만드는 오류

티스토리 뷰

제약산업

Batch 간 sample prep 차이가 만드는 오류

pharma_info 2026. 5. 21. 20:41

728x90

Proteomics에서 가장 위험한 신호는 biology가 아니라 preparation history일 수도 있다

Proteomics 데이터를 처음 해석할 때 많은 사람들은 instrument variability를 가장 먼저 경계한다. LC gradient stability, spray fluctuation, mass accuracy drift, ion suppression 같은 요소들이 결과를 흔든다고 배운다. 실제로 이런 요소들은 매우 중요하다. 그래서 연구자들은 QC sample을 반복 주입하고, retention time alignment를 확인하며, normalization 전략을 세운다.

하지만 실제 대규모 proteomics 데이터를 오래 다루다 보면 어느 순간 이상한 패턴이 보이기 시작한다. 특정 날짜에 준비된 sample끼리만 유독 비슷하게 clustering되고, 특정 digestion batch에서만 membrane protein abundance가 낮아지며, 어떤 pathway는 biological condition보다 preparation order에 따라 움직이는 것처럼 보인다.

처음에는 우연처럼 느껴질 수 있다. 하지만 metadata를 계속 따라가다 보면 결국 하나의 사실에 도달하게 된다. 우리가 biology를 보고 있다고 생각했던 패턴 상당수가 사실은 sample preparation history를 반영하고 있다는 점이다.

그리고 이 문제는 생각보다 훨씬 위험하다. 왜냐하면 sample prep bias는 단순 noise처럼 나타나지 않기 때문이다. 오히려 매우 재현성 있고 일관된 구조를 만든다. 즉 batch 간 sample prep 차이는 random error가 아니라, convincing한 biological signal처럼 보이는 systematic bias를 만든다.

1. Proteomics는 “한 번에 끝나는 실험”이 아니다

Proteomics workflow는 생각보다 긴 과정이다.

Sample collection 이후 단백질 추출을 하고, detergent 처리를 하고, reduction과 alkylation을 수행하며, digestion을 거쳐 cleanup과 desalting을 진행한다. 이후 peptide를 농축하고 vial에 옮긴 뒤 LC-MS에 주입한다.

문제는 이 모든 단계가 하루 안에 완전히 동일 조건으로 수행되기 어렵다는 점이다.

대규모 cohort study에서는 sample 수가 수십~수백 개를 넘어간다. 결국 여러 날에 걸쳐 preparation batch가 나뉘게 된다. 다른 날짜, 다른 reagent lot, 다른 operator, 다른 room condition, 다른 incubation timing 아래에서 sample prep이 진행된다.

그리고 중요한 것은 proteomics가 이 작은 차이들에 생각보다 매우 민감하다는 점이다.

2. Batch effect는 instrument에서만 발생하지 않는다

많은 사람들이 batch effect를 LC-MS acquisition 단계 문제로만 생각한다. Mass calibration drift, column aging, spray stability 같은 요소가 대표적이다.

하지만 실제로는 sample preparation 단계가 훨씬 큰 batch effect를 만드는 경우도 많다.

예를 들어 digestion incubation 시간이 batch마다 미세하게 달라질 수 있다. 어떤 batch는 14시간 digestion이 되었고, 다른 batch는 18시간 digestion이 되었을 수도 있다. Operator마다 vortex intensity나 cleanup timing이 다를 수도 있다.

심지어 room temperature 차이, reagent thawing 시간, pipetting 습관 같은 요소도 cumulative effect를 만든다.

문제는 이런 변화가 단순 noise로 끝나지 않는다는 점이다. 특정 peptide class와 특정 protein group에 선택적으로 영향을 준다.

결국 batch마다 “조금씩 다른 proteome”이 만들어지기 시작한다.

3. Digestion batch 차이는 가장 흔한 preparation bias다

Proteomics에서 digestion은 가장 critical하면서도 가장 variability가 큰 단계 중 하나다.

Trypsin activity는 temperature, pH, buffer composition, enzyme lot, incubation duration에 민감하게 반응한다. 문제는 이런 변수들이 batch마다 완전히 동일하게 유지되기 어렵다는 점이다.

실제 raw data를 보면 digestion batch가 달라질 때 missed cleavage frequency가 systematic하게 변하는 경우가 자주 관찰된다. 어떤 batch에서는 fully cleaved peptide가 dominant하지만, 다른 batch에서는 partially cleaved peptide 비율이 증가한다.

결과적으로 동일 protein에서도 peptide intensity distribution 자체가 달라질 수 있다.

특히 membrane protein이나 structured protein처럼 digestion accessibility가 낮은 단백질은 이 영향을 훨씬 크게 받는다.

즉 digestion batch variability는 단순 technical fluctuation이 아니라 protein abundance estimate 자체를 흔드는 구조가 된다.

4. Cleanup batch 차이는 peptide population을 바꿔놓는다

Sample cleanup 역시 매우 강한 batch-dependent bias를 만든다.

StageTip conditioning 상태, SPE cartridge lot variation, washing intensity, drying duration 같은 요소들이 peptide recovery pattern을 계속 바꾼다.

어떤 batch에서는 hydrophobic peptide recovery가 감소하고, 어떤 batch에서는 hydrophilic peptide loss가 증가할 수 있다.

실제 comparative dataset에서는 cleanup batch마다 membrane protein abundance pattern이 systematic하게 흔들리는 경우가 자주 보고된다.

문제는 이런 변화가 모든 peptide에 균등하게 작용하지 않는다는 점이다. 특정 peptide class만 선택적으로 영향을 받는다.

결국 batch마다 proteome composition 자체가 subtly 달라지게 된다.

5. Low abundance protein은 batch effect를 가장 먼저 맞는다

Preparation variability는 abundance dependence를 강하게 가진다.

High abundance protein은 일부 recovery fluctuation이 발생해도 여전히 detection threshold 위에 남을 가능성이 높다. 하지만 low abundance protein은 작은 preparation bias만 발생해도 missing value 상태로 사라질 수 있다.

특히 signaling protein, transcription factor, cytokine-related protein은 원래 abundance가 낮은 경우가 많다.

실제 clinical proteomics dataset에서는 housekeeping protein은 안정적으로 유지되지만, low abundance pathway는 batch마다 fold change 방향 자체가 흔들리는 경우가 적지 않다.

즉 sample prep batch effect는 proteome 전체를 균등하게 흔드는 것이 아니라, biologically 중요한 low abundance layer를 우선적으로 왜곡한다.

6. Batch effect는 PCA에서 biology처럼 보인다

이 문제가 특히 위험한 이유는 batch effect가 매우 “그럴듯한 구조”를 만든다는 점이다.

예를 들어 PCA를 수행했을 때 sample이 condition별로 분리되는 것처럼 보인다. 연구자는 disease vs control separation이라고 생각한다.

그런데 metadata를 자세히 보면 disease sample은 대부분 Batch 1에서 prep되었고, control sample은 Batch 2에서 prep된 경우가 있다.

실제 proteomics에서는 preparation order가 PCA clustering을 지배하는 사례가 생각보다 매우 흔하다.

문제는 batch effect가 random scatter처럼 보이지 않는다는 점이다. 오히려 같은 batch 안 sample끼리는 매우 높은 consistency를 유지한다.

즉 technical artifact가 매우 convincing한 biological pattern처럼 나타난다.

7. Differential expression 결과도 preparation history를 반영할 수 있다

Batch 간 sample prep 차이는 differential expression analysis를 직접 왜곡한다.

예를 들어 Batch A에서 digestion efficiency가 조금 낮아졌다고 가정해보자. Structured protein-derived peptide는 preferentially intensity 감소를 겪을 수 있다.

만약 특정 biological condition sample이 우연히 Batch A에 몰려 있다면, downstream analysis에서는 해당 protein group이 biological downregulation처럼 보일 수 있다.

실제 pathway enrichment 결과에서도 membrane signaling suppression, metabolic shift 같은 패턴이 batch structure와 함께 움직이는 경우가 자주 관찰된다.

문제는 p-value가 매우 convincing하게 나올 수도 있다는 점이다. Replicate consistency가 높기 때문이다.

즉 통계적으로 강한 결과라고 해서 biological truth를 보장하지 않는다.

8. Missing value 구조도 batch dependency를 가진다

Proteomics missing value는 흔히 stochastic DDA sampling 문제로 설명된다. 물론 일부는 맞다. 하지만 실제 missing pattern은 preparation batch dependency를 강하게 가진 경우가 많다.

어떤 batch에서는 특정 peptide class가 consistently missing된다. 특히 low abundance hydrophobic peptide나 PTM peptide에서 이런 현상이 자주 나타난다.

실제 missing heatmap을 보면 biological grouping보다 preparation order에 따라 missing pattern이 정렬되는 경우도 있다.

즉 missing value는 단순 random blank가 아니라 preparation history의 흔적일 수 있다.

9. 왜 preparation batch effect는 잘 안 보이는가

가장 큰 이유는 preparation bias가 “너무 자연스럽게” 발생하기 때문이다.

실험자는 protocol을 동일하게 수행했다고 생각한다. 실제 SOP도 동일하고 reagent도 비슷하다. 그래서 preparation batch는 단순 administrative metadata처럼 취급되는 경우가 많다.

하지만 proteomics는 매우 작은 physicochemical variation에도 민감하게 반응한다.

또한 modern software pipeline은 normalization과 batch correction을 자동으로 수행한다. 문제는 이런 correction이 실제 biology까지 함께 flattening할 수 있다는 점이다.

결국 연구자는 normalized abundance table만 보게 되고, preparation history가 만든 구조를 놓치기 쉽다.

10. 실제 데이터에서 반드시 확인해야 하는 것들

Proteomics 데이터를 해석할 때 preparation metadata를 반드시 함께 봐야 한다.

Digestion date, cleanup batch, reagent lot, operator, precipitation condition 같은 정보는 단순 기록이 아니라 데이터 해석의 핵심 변수다.

PCA나 clustering 결과를 볼 때도 biological condition뿐 아니라 preparation batch와 함께 비교해야 한다.

Missing value distribution 역시 batch별로 확인할 필요가 있다. 특정 batch에서 특정 peptide class가 반복적으로 사라진다면 preparation bias 가능성을 의심해야 한다.

가능하다면 randomized preparation design을 사용하는 것이 좋다. Disease와 control sample을 preparation batch 안에 섞어 배치해야 한다.

또 pooled QC sample을 preparation 단계부터 함께 처리하는 것도 매우 중요하다. LC-MS QC만으로는 sample prep bias를 충분히 감지할 수 없는 경우가 많기 때문이다.

결론

Proteomics에서 batch 간 sample prep 차이는 단순 technical inconvenience가 아니다. 실제로는 proteome structure 자체를 다시 구성할 수 있는 강력한 bias source다.

Digestion variability, cleanup recovery difference, precipitation efficiency, operator handling 차이 같은 요소들은 모두 peptide population과 protein abundance pattern을 바꾼다. 결국 우리가 biology를 보고 있다고 생각하는 많은 패턴이 preparation history를 반영하고 있을 수도 있다.

이 사실을 이해하기 시작하면 이전에는 설명되지 않던 현상들이 다르게 보이기 시작한다. 왜 특정 batch끼리만 clustering되는지, 왜 signaling pathway reproducibility가 낮은지, 왜 low abundance protein이 batch마다 흔들리는지에 대한 답이 sample preparation 단계 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Ratio compression이 발생하는 구조 (0)	2026.05.25
iTRAQ/TMT 정량이 왜곡될 수 있는 이유 (0)	2026.05.24
Label-free quantification의 한계와 착각 (0)	2026.05.23
Freeze-thaw가 proteome에 미치는 영향 (0)	2026.05.22
Protein precipitation이 특정 단백질을 잃게 만드는 이유 (0)	2026.05.20
Low abundance protein이 사라지는 이유 (0)	2026.05.19
Sample cleanup이 bias를 만드는 이유 (0)	2026.05.18
Trypsin digestion이 완벽하지 않은 이유 (0)	2026.05.17

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰