티스토리 뷰

728x90

Digestion 효율이 quantification에 미치는 영향
Digestion 효율이 quantification에 미치는 영향

같은 단백질인데 왜 trypsin 상태 하나로 abundance가 달라질까

Proteomics 데이터를 해석하다 보면 어느 순간부터 이상한 패턴이 눈에 들어오기 시작한다. 분명 biological replicate인데 특정 protein의 abundance만 유독 흔들리거나, 어떤 peptide는 consistently 낮게 검출되며, 특정 sample group에서만 fold change가 과장되어 나타나는 경우다. 처음에는 instrument variability를 의심하게 된다. LC gradient가 흔들렸나, spray stability에 문제가 있었나, ion suppression이 발생했나 같은 생각부터 하게 된다.

하지만 raw peptide level 데이터를 계속 들여다보다 보면 문제는 의외로 훨씬 앞 단계에서 시작된 경우가 많다. 특히 sample preparation 과정, 그중에서도 digestion 단계가 quantification 전체를 조용히 흔들고 있는 상황을 자주 만나게 된다.

많은 사람들이 proteomics에서 digestion을 단순한 준비 과정처럼 생각한다. 단백질을 peptide로 잘라 LC-MS로 보기 쉽게 만드는 단계 정도로 이해하는 경우가 많다. 실제 workflow에서도 digestion은 protocol 중간에 자동처럼 지나가는 과정이 된다. Trypsin을 넣고 overnight incubation을 하면 끝나는 단계처럼 느껴진다.

하지만 실제 proteomics에서 digestion은 단순한 절단 과정이 아니다. 어떤 peptide가 생성될 수 있는지, 어떤 peptide는 충분히 생성되지 못하는지, 어떤 peptide는 과도하게 분해되는지를 결정한다. 결국 우리가 quantification에서 사용하는 peptide signal 자체가 digestion 효율에 의해 만들어진 결과라는 뜻이다. 이 말은 곧 digestion variability가 존재하는 순간, abundance table 자체가 흔들릴 수 있다는 의미이기도 하다.

1. Proteomics는 단백질을 직접 정량하지 않는다

Proteomics 데이터를 해석할 때 가장 먼저 잊기 쉬운 사실 중 하나가 있다. 우리는 protein 자체를 측정하는 것이 아니라, digestion 이후 생성된 peptide를 측정하고 있다는 점이다.

즉 protein abundance는 직접 관찰되는 값이 아니다. 특정 peptide signal을 기반으로 역으로 추론한 결과다. 문제는 이 peptide generation 과정이 완전히 균일하지 않다는 데 있다.

어떤 단백질은 trypsin digestion이 매우 효율적으로 일어나 stable peptide를 풍부하게 생성한다. 반면 어떤 단백질은 구조적으로 digestion accessibility가 낮거나 cleavage site 주변 환경 때문에 peptide generation efficiency가 떨어진다. 또 어떤 peptide는 digestion 이후 추가 degradation이나 modification을 겪으면서 signal intensity가 감소하기도 한다.

결국 동일한 양의 protein이 존재하더라도 실제로 생성되는 peptide intensity는 상당히 다를 수 있다. 이 차이는 quantification 단계에서 직접적인 bias로 이어진다.

2. 실제 raw data에서 보이는 digestion variability

이 문제는 실제 raw data에서 생각보다 선명하게 드러난다. 동일한 HeLa lysate를 replicate digestion한 뒤 Orbitrap 기반 LFQ를 수행해보면, 전체 protein abundance는 비교적 안정적으로 보일 수 있다. 하지만 peptide level로 내려가면 상황이 달라진다.

특정 protein의 peptide 중 일부는 replicate 간 intensity variation이 매우 낮지만, 다른 peptide는 2~3배 이상 흔들리는 경우가 있다. 흥미로운 것은 이런 variability가 random noise처럼 보이지 않는다는 점이다. 특정 peptide들은 consistently unstable하다.

실제로 chromatogram을 열어보면 이런 peptide들은 missed cleavage form과 fully cleaved form이 동시에 존재하는 경우가 많다. 어떤 run에서는 fully digested peptide가 dominant하게 나타나고, 다른 run에서는 partially cleaved peptide 비율이 증가한다.

결과적으로 동일 protein에서도 어떤 peptide를 quantification에 사용했느냐에 따라 abundance estimate 자체가 달라질 수 있다.

3. Trypsin은 생각보다 완벽하지 않다

많은 proteomics workflow가 trypsin을 “표준 효소”처럼 사용하지만, 실제 digestion behavior는 생각보다 훨씬 복잡하다.

Trypsin은 lysine(K)과 arginine(R) 뒤를 절단한다고 알려져 있지만, 모든 cleavage site가 동일 efficiency로 잘리는 것은 아니다. Cleavage site 주변 amino acid composition, local secondary structure, PTM 존재 여부 등에 따라 digestion accessibility가 달라진다.

예를 들어 proline이 cleavage site 근처에 존재하면 trypsin cleavage efficiency가 크게 감소하는 경우가 많다. Highly folded protein region에서는 cleavage site 자체가 structural shielding을 받아 접근이 어려울 수 있다. Phosphorylation이나 glycosylation 같은 PTM 역시 local digestion efficiency를 바꾼다.

결국 tryptic peptide generation은 단순한 규칙 기반 과정이 아니라 protein structure와 chemistry 영향을 강하게 받는 동적 과정에 가깝다.

4. Missed cleavage는 단순 artifact가 아니다

Proteomics 데이터에서 missed cleavage는 흔히 “불완전 digestion의 흔적” 정도로 취급된다. 하지만 실제로는 quantification variability를 만드는 중요한 구조적 원인 중 하나다.

예를 들어 동일 peptide가 어떤 sample에서는 fully cleaved form으로 강하게 나타나고, 다른 sample에서는 longer missed-cleavage form으로 분산될 수 있다. 이 경우 total peptide abundance는 비슷하더라도 개별 feature intensity는 달라진다.

특히 label-free quantification에서는 이 문제가 심각해진다. Software가 특정 peptide form만 주요 feature로 선택할 경우, digestion efficiency 변화가 그대로 abundance change처럼 보일 수 있기 때문이다.

실제 clinical proteomics dataset에서는 digestion batch마다 missed cleavage frequency가 달라지면서 특정 protein group의 fold change가 systematic하게 이동하는 사례도 보고된다.

즉 missed cleavage는 단순 technical imperfection이 아니라 peptide population structure 자체를 바꾸는 변수다.

5. Digestion efficiency는 protein마다 다르게 작동한다

더 중요한 것은 digestion bias가 모든 protein에 균등하게 작용하지 않는다는 점이다.

Highly soluble cytosolic protein은 일반적으로 digestion accessibility가 높다. 반면 membrane protein이나 strongly folded protein complex는 digestion efficiency가 낮은 경우가 많다. Aggregated protein 역시 trypsin 접근성이 제한될 수 있다.

이 차이는 protein class-specific quantification bias를 만든다. 예를 들어 membrane signaling protein abundance가 실제보다 낮게 측정되는 경우, 이는 biological downregulation이 아니라 digestion inefficiency 문제일 수 있다.

실제 membrane proteomics에서는 detergent removal 이후 protein precipitation이 일부 발생하면서 digestion accessibility가 감소하는 사례가 흔하다. 결과적으로 membrane-associated peptide generation efficiency가 떨어지고, abundance estimate가 systematic하게 낮아진다.

이 경우 연구자는 특정 pathway suppression으로 해석할 수 있지만, 실제로는 sample preparation bias에 가까운 상황일 수 있다.

6. Overdigestion도 조용히 데이터를 흔든다

많은 사람들이 digestion 문제를 “불충분 digestion” 중심으로 생각하지만, overdigestion 역시 중요한 변수다.

Excessive incubation이나 높은 enzyme-to-protein ratio 조건에서는 일부 peptide가 secondary cleavage를 겪거나 nonspecific degradation이 증가할 수 있다. 특히 small peptide는 prolonged digestion 동안 stability가 낮아질 수 있다.

실제 peptide distribution을 비교해보면 overdigestion 조건에서는 shorter peptide proportion이 증가하고, 일부 canonical peptide intensity가 감소하는 현상이 나타난다.

문제는 이런 변화가 random하게 발생하지 않는다는 점이다. 특정 sequence motif를 가진 peptide들이 preferentially 영향을 받기 때문에, protein-specific quantification distortion으로 이어질 수 있다.

결국 digestion은 “충분히 자르는 것”만이 아니라 “얼마나 균형 있게 자르는가”의 문제다.

7. Digestion buffer 조성도 quantification에 영향을 준다

Digestion efficiency는 효소 자체만의 문제가 아니다. Buffer composition 역시 매우 중요하다.

Residual detergent, salt concentration, pH, chaotropic agent 잔존 여부는 모두 trypsin activity에 영향을 준다. 예를 들어 SDS가 충분히 제거되지 않으면 trypsin activity가 급격히 감소할 수 있다. 높은 urea concentration 역시 prolonged exposure 시 trypsin stability를 떨어뜨린다.

실제 sample preparation 비교 실험에서는 detergent cleanup efficiency 차이만으로 missed cleavage rate가 상당히 달라지는 경우가 자주 관찰된다.

이 문제는 특히 large cohort study에서 위험하다. Digestion batch마다 buffer carryover 수준이 조금씩 달라지면 peptide generation pattern 자체가 batch effect를 만들 수 있기 때문이다.

8. Digestion variability는 normalization으로 해결되지 않는다

많은 사람들이 normalization을 수행하면 technical variability가 대부분 보정된다고 생각한다. 하지만 digestion bias는 단순 global scaling 문제가 아니다.

왜냐하면 digestion efficiency는 protein마다, peptide마다 다르게 작동하기 때문이다. 어떤 peptide는 거의 영향을 받지 않지만, 어떤 peptide는 digestion condition 변화에 매우 민감하다.

결과적으로 global normalization을 수행해도 relative peptide abundance distortion은 남게 된다. 특히 low abundance protein이나 peptide 수가 적은 protein에서는 이 영향이 훨씬 크게 나타난다.

실제 differential expression 결과 중 상당수는 downstream statistics보다 upstream digestion variability 영향을 더 많이 받는 경우가 있다.

9. 왜 digestion bias는 잘 보이지 않는가

가장 큰 이유는 대부분의 proteomics workflow가 digestion을 “이미 끝난 과정”으로 취급하기 때문이다. 연구자는 최종 peptide intensity table이나 protein abundance 결과를 먼저 보게 된다.

하지만 그 signal 자체가 digestion 효율에 의해 생성된 결과라는 사실은 쉽게 잊힌다.

또한 digestion QC는 보통 missed cleavage percentage 정도로 단순화되는 경우가 많다. 물론 중요한 지표이긴 하지만, 실제 digestion bias는 훨씬 더 복잡하다. 특정 peptide population만 선택적으로 영향을 받을 수 있기 때문이다.

특히 reproducibility가 높게 유지되는 경우 이 문제는 더 위험하다. Consistent digestion bias는 매우 convincing한 biological signal처럼 보일 수 있다.

10. 실제 데이터에서 반드시 확인해야 하는 것들

Digestion quality를 평가할 때는 단순히 peptide identification 수만 보는 것으로 충분하지 않다.

Missed cleavage distribution을 peptide class별로 확인할 필요가 있다. 특정 protein class에서 missed cleavage frequency가 유독 높다면 digestion accessibility 문제를 의심해야 한다.

Peptide-level coefficient of variation(CV)도 중요하다. 동일 protein 안에서도 특정 peptide만 반복적으로 흔들린다면 digestion-related instability 가능성이 있다.

가능하다면 stable isotope-labeled peptide를 이용해 digestion reproducibility를 직접 모니터링하는 것도 도움이 된다. 특히 clinical proteomics에서는 digestion QC 없이 abundance interpretation을 진행하는 것이 생각보다 위험할 수 있다.

또한 raw chromatogram inspection 역시 중요하다. Fully cleaved peptide와 partially cleaved peptide가 어떻게 분포하는지 직접 보면 digestion bias 구조를 훨씬 명확하게 이해할 수 있다.

결론

Proteomics에서 digestion은 단순히 단백질을 잘게 자르는 과정이 아니다. 실제로는 어떤 peptide가 생성될 수 있는지, 어떤 peptide가 quantification에 사용될 수 있는지를 결정하는 핵심 단계다.

Trypsin efficiency, missed cleavage, buffer compatibility, digestion accessibility 같은 요소들은 모두 peptide abundance pattern을 바꾼다. 결국 우리가 보는 protein abundance는 digestion chemistry를 거쳐 만들어진 결과라고 할 수 있다.

이 사실을 이해하기 시작하면 이전에는 단순한 instrument variability처럼 보였던 현상들이 다르게 보이기 시작한다. 왜 특정 peptide만 흔들리는지, 왜 replicate 간 fold change가 불안정한지, 왜 membrane protein quantification이 어려운지에 대한 답이 digestion 단계 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90