Sample cleanup이 bias를 만드는 이유

티스토리 뷰

제약산업

Sample cleanup이 bias를 만드는 이유

pharma_info 2026. 5. 18. 20:28

728x90

Proteomics에서 “깨끗한 샘플”이 오히려 데이터를 왜곡할 수도 있다

Proteomics workflow를 처음 배우면 sample cleanup은 거의 필수 단계처럼 등장한다. Digestion 이후 남아 있는 salt, detergent, lipid, buffer component를 제거해야 LC-MS가 안정적으로 작동하기 때문이다. 실제로 cleanup 없이 sample을 바로 주입하면 spray instability가 발생하거나 ion suppression이 심해지고, column contamination과 sensitivity 저하 문제도 빠르게 나타난다.

그래서 많은 사람들은 cleanup을 “좋은 데이터”를 만들기 위한 정리 과정처럼 생각한다. 불필요한 불순물을 제거하고 peptide만 남기는 단계라고 이해한다. 실제 workflow diagram에서도 cleanup은 아주 간단하게 표현된다. StageTip desalting, SPE cleanup, precipitation, filter-aided cleanup 같은 과정이 중간에 짧게 지나간다.

하지만 실제 raw data를 오래 보다 보면 이상한 현상이 반복된다. 어떤 peptide는 특정 cleanup protocol 이후 consistently 사라지고, 어떤 protein class는 특정 batch에서만 intensity가 낮아진다. 어떤 실험에서는 phosphopeptide recovery가 급격히 감소하고, 또 어떤 경우에는 membrane protein-derived peptide만 유독 재현성이 나빠진다.

처음에는 instrument condition이나 digestion variability처럼 보일 수 있다. 하지만 데이터를 끝까지 추적하다 보면 문제는 cleanup 자체에 있는 경우가 많다.

그리고 이 시점에서 중요한 사실 하나를 이해하게 된다. Proteomics에서 sample cleanup은 단순한 “불순물 제거 과정”이 아니다. 실제로는 어떤 peptide를 남기고 어떤 peptide를 버릴지를 결정하는 강력한 selection 과정에 가깝다. 즉 cleanup은 proteome을 정리하는 단계가 아니라, proteome composition 자체를 다시 구성하는 단계다.

1. Cleanup은 peptide를 모두 동일하게 보존하지 않는다

많은 사람들이 cleanup을 단순한 recovery 과정처럼 생각한다. Salt나 detergent만 제거되고 peptide는 그대로 유지된다고 가정한다. 하지만 실제로는 모든 peptide가 cleanup 과정에서 동일하게 살아남지 않는다.

어떤 peptide는 SPE cartridge에 강하게 binding되고 안정적으로 회수되지만, 어떤 peptide는 washing 단계에서 쉽게 빠져나간다. 어떤 peptide는 elution efficiency가 높지만, 어떤 peptide는 stationary phase에 남아 recovery가 낮다.

즉 cleanup efficiency는 peptide physicochemical property에 따라 계속 달라진다.

Hydrophobic peptide는 retention이 지나치게 강해 incomplete elution이 발생할 수 있고, 매우 hydrophilic한 peptide는 binding 자체가 불안정할 수 있다. Long peptide와 PTM peptide 역시 일반 peptide와 다른 behavior를 보이는 경우가 많다.

결국 cleanup 이후 남아 있는 peptide population은 원래 sample의 축소판이 아니라, cleanup chemistry에 의해 선택된 subset에 가까워진다.

2. 실제 raw data에서는 특정 peptide만 반복적으로 사라진다

이 현상은 실제 proteomics dataset에서 매우 자주 관찰된다.

예를 들어 동일 digest sample을 서로 다른 cleanup protocol로 처리한 뒤 Orbitrap 기반 LC-MS/MS를 수행하면 total identification number는 비슷하게 유지될 수 있다. 하지만 peptide composition을 자세히 비교해보면 상당한 차이가 나타난다.

어떤 protocol에서는 hydrophobic membrane peptide recovery가 감소하고, 다른 protocol에서는 short hydrophilic peptide가 선택적으로 줄어든다. 특히 phosphopeptide enrichment 전후 cleanup에서는 특정 phosphosite-containing peptide만 반복적으로 사라지는 경우도 있다.

실제 chromatogram을 보면 특정 peptide는 cleanup 이후 intensity가 dramatic하게 감소한다. 그런데 동일 protein의 다른 peptide는 상대적으로 안정적으로 유지된다.

즉 cleanup bias는 protein 전체에 균등하게 작용하지 않는다. Peptide-level selective loss 형태로 나타난다.

3. StageTip과 SPE는 생각보다 공격적인 selection 과정이다

Proteomics에서 가장 흔히 사용하는 cleanup 방식 중 하나가 C18 기반 desalting이다. StageTip이나 SPE cartridge를 이용해 peptide를 retention시키고 salt와 detergent를 washing한 뒤 peptide를 elution한다.

겉보기에는 단순한 과정처럼 보이지만 실제로는 매우 강한 chromatographic selection 과정이다.

C18 retention은 peptide hydrophobicity에 크게 의존한다. 따라서 extremely hydrophilic peptide는 retention efficiency가 낮아 washing 단계에서 쉽게 손실될 수 있다. 반대로 매우 hydrophobic한 peptide는 elution efficiency가 떨어져 cartridge 안에 남아버릴 수 있다.

실제 peptide recovery test를 해보면 동일 cleanup protocol에서도 peptide마다 recovery rate가 극단적으로 달라진다. 어떤 peptide는 90% 이상 회수되지만, 어떤 peptide는 절반 이상 사라지기도 한다.

문제는 이런 차이가 random하지 않다는 점이다. 특정 peptide class만 반복적으로 영향을 받는다.

결국 cleanup은 “peptide purification”이라기보다 “peptide filtering”에 가까운 과정이다.

4. Membrane peptide는 cleanup에서 특히 불리하다

Proteomics에서 membrane protein quantification이 어려운 이유는 digestion accessibility나 ionization efficiency 때문만이 아니다. Cleanup 단계 역시 중요한 원인 중 하나다.

Membrane protein-derived peptide는 일반적으로 hydrophobicity가 높다. 이 때문에 SPE cartridge나 StageTip에서 retention behavior가 극단적으로 나타나는 경우가 많다.

어떤 peptide는 너무 강하게 binding되어 standard elution condition으로 충분히 회수되지 않는다. 또 일부 peptide는 drying 이후 resolubilization efficiency가 낮아져 cleanup 이후 signal loss가 커진다.

실제 membrane proteomics dataset에서는 cleanup condition만 바꿔도 membrane-associated peptide recovery pattern이 상당히 달라지는 경우가 자주 관찰된다.

이 문제는 단순 sensitivity 감소가 아니다. 특정 biological layer 자체가 선택적으로 underrepresentation되는 현상에 가깝다.

5. PTM peptide는 cleanup bias에 훨씬 취약하다

PTM(post-translational modification) peptide는 cleanup bias 영향을 훨씬 크게 받는다.

예를 들어 phosphopeptide는 일반 peptide보다 hydrophilicity와 charge distribution이 다르다. 이 때문에 standard C18 cleanup에서 retention behavior가 불안정해질 수 있다.

실제 phosphoproteomics workflow에서는 enrichment efficiency보다 cleanup recovery variability가 더 큰 문제로 작동하는 경우도 있다. 일부 phosphopeptide는 cleanup 과정에서 거의 완전히 사라진다.

Glycopeptide 역시 마찬가지다. Glycan structure 때문에 chromatographic behavior가 복잡해지고 recovery reproducibility가 떨어질 수 있다.

결국 PTM dataset에서 missing value 상당수는 instrument sensitivity 부족이 아니라 cleanup-induced peptide loss 때문인 경우도 많다.

6. Protein precipitation도 강한 bias를 만든다

많은 workflow에서 detergent 제거를 위해 acetone precipitation이나 methanol/chloroform precipitation을 사용한다. 하지만 precipitation 역시 완전히 중립적인 과정이 아니다.

일부 protein은 precipitation efficiency가 높지만, 어떤 protein은 supernatant에 남거나 pellet resolubilization이 어려운 경우가 있다.

특히 membrane protein이나 aggregation-prone protein은 precipitation 이후 resolubilization efficiency가 낮아지는 경우가 많다. 결과적으로 digestion accessibility와 peptide generation efficiency까지 연쇄적으로 영향을 받는다.

실제 comparative dataset에서는 precipitation-based cleanup 이후 특정 protein group abundance가 systematic하게 감소하는 현상이 보고된다.

즉 cleanup-induced bias는 peptide level뿐 아니라 protein extraction 구조 전체까지 흔들 수 있다.

7. Low abundance peptide는 cleanup에서 가장 먼저 사라진다

Cleanup bias는 abundance dependence를 매우 강하게 가진다.

High abundance peptide는 일부 loss가 발생해도 여전히 detection threshold 위에 남아 있을 가능성이 높다. 하지만 low abundance peptide는 작은 recovery loss만 발생해도 completely missing 상태가 될 수 있다.

이 문제는 proteomics interpretation에서 매우 중요하다. 왜냐하면 biologically 중요한 signaling protein이나 regulatory protein은 원래 abundance가 낮은 경우가 많기 때문이다.

결국 cleanup은 이미 약한 signal을 먼저 제거하는 구조가 된다.

실제 plasma proteomics에서는 abundant serum protein peptide는 안정적으로 유지되지만, low abundance cytokine-related peptide는 cleanup condition 변화에 훨씬 민감하게 흔들리는 경우가 많다.

즉 cleanup bias는 단순 peptide loss가 아니라 proteome dynamic range 자체를 재구성한다.

8. Cleanup variability는 quantification처럼 보인다

이 문제가 가장 위험해지는 순간은 cleanup-induced recovery variability가 biological abundance change처럼 보일 때다.

예를 들어 특정 cleanup batch에서 membrane peptide recovery가 약간만 감소해도 label-free quantification에서는 membrane protein downregulation처럼 보일 수 있다.

특히 peptide 수가 적은 protein은 이 영향을 크게 받는다. Protein abundance calculation이 사실상 1~2개 peptide에 의존하는 경우, 특정 peptide recovery 감소는 곧 protein abundance 감소처럼 나타난다.

실제 differential expression dataset에서는 일부 fold change가 biology보다 cleanup recovery variability 영향을 더 크게 받는 사례가 적지 않다.

문제는 이런 변화가 replicate consistency를 유지할 수도 있다는 점이다. 즉 technical bias가 매우 convincing한 biological signal처럼 보인다.

9. 왜 cleanup bias는 잘 보이지 않는가

가장 큰 이유는 cleanup이 “좋은 데이터를 만들기 위한 과정”이라는 이미지 때문이다. 대부분의 연구자는 cleanup을 purification 단계로 생각하지 selection 단계로 생각하지 않는다.

또 cleanup 이후 total peptide amount가 충분히 유지되면 protocol이 잘 작동했다고 판단하기 쉽다. 하지만 실제로는 특정 peptide population이 선택적으로 사라지고 있을 수 있다.

더 큰 문제는 cleanup-induced loss가 대부분 invisible하다는 점이다. 사라진 peptide는 데이터 안에 남지 않는다. Proteomics software는 살아남은 peptide만 기반으로 분석을 수행한다.

결국 연구자는 biology를 해석하고 있다고 생각하지만, 실제로는 cleanup chemistry가 남겨준 peptide subset을 보고 있는 경우가 많다.

10. 실제 데이터에서 반드시 확인해야 하는 것들

Cleanup protocol을 평가할 때는 total peptide yield만 보는 것으로 충분하지 않다.

Peptide property별 recovery pattern을 확인할 필요가 있다. 특정 hydrophobicity, peptide length, charge state, PTM class를 가진 peptide만 반복적으로 손실된다면 cleanup bias 가능성을 의심해야 한다.

가능하다면 standard peptide mixture를 이용해 recovery efficiency를 직접 비교하는 것이 좋다. 특히 low abundance peptide recovery를 별도로 확인할 필요가 있다.

Cleanup batch consistency 역시 매우 중요하다. 동일 protocol이라도 cartridge lot variation, washing condition 차이, drying 정도에 따라 recovery pattern이 달라질 수 있기 때문이다.

또 peptide-level inspection을 자주 해야 한다. Protein table만 보면 보이지 않던 cleanup bias 구조가 raw precursor level에서는 훨씬 명확하게 드러나는 경우가 많다.

결론

Proteomics에서 sample cleanup은 단순한 정리 과정이 아니다. 실제로는 어떤 peptide를 남기고 어떤 peptide를 제거할지를 결정하는 강력한 selection 단계다.

StageTip desalting, SPE cleanup, precipitation, drying 과정 같은 요소들은 모두 peptide population 구조를 바꾼다. 결국 우리가 보는 proteome은 원래 sample 전체가 아니라 cleanup chemistry를 통과해 살아남은 peptide들의 결과물에 가까워진다.

이 사실을 이해하기 시작하면 이전에는 설명되지 않던 많은 현상들이 다르게 보이기 시작한다. 왜 특정 peptide만 반복적으로 사라지는지, 왜 membrane protein quantification이 어려운지, 왜 phosphoproteomics reproducibility가 흔들리는지에 대한 답이 cleanup 과정 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90

'제약산업' 카테고리의 다른 글

Freeze-thaw가 proteome에 미치는 영향 (0)	2026.05.22
Batch 간 sample prep 차이가 만드는 오류 (0)	2026.05.21
Protein precipitation이 특정 단백질을 잃게 만드는 이유 (0)	2026.05.20
Low abundance protein이 사라지는 이유 (0)	2026.05.19
Trypsin digestion이 완벽하지 않은 이유 (0)	2026.05.17
Digestion 효율이 quantification에 미치는 영향 (0)	2026.05.16
Lysis buffer 조성이 proteome을 왜곡하는 방식 (0)	2026.05.15
단백질 추출 방법이 proteomics 결과를 바꾸는 이유 (0)	2026.05.14

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

제약회사 연구원의 블로그

티스토리 뷰