티스토리 뷰

728x90

Trypsin digestion이 완벽하지 않은 이유
Trypsin digestion이 완벽하지 않은 이유

Proteomics에서 가장 당연하게 믿는 과정이 사실은 가장 불안정할 수도 있다

Proteomics를 처음 배우면 trypsin은 거의 절대적인 존재처럼 등장한다. 대부분의 workflow는 “단백질을 trypsin으로 digestion한 뒤 LC-MS/MS로 분석한다”는 문장으로 시작한다. 너무 익숙하다 보니 어느 순간부터는 trypsin digestion을 하나의 자동 과정처럼 받아들이게 된다. 단백질을 넣고 overnight incubation을 하면 peptide가 생성되고, 그 peptide를 기반으로 identification과 quantification이 이루어진다고 생각한다.

실제로 많은 논문도 digestion 자체를 자세히 설명하지 않는다. Trypsin digestion은 이미 표준화된 과정처럼 보인다. Mass spectrometer 세팅이나 acquisition strategy는 길게 설명하면서도, digestion은 “trypsin digestion was performed overnight at 37°C” 정도로 지나가는 경우가 많다. 그만큼 당연한 단계처럼 취급된다.

하지만 실제 raw data를 오래 들여다보면 이상한 순간들을 반복해서 만나게 된다. 어떤 peptide는 replicate마다 intensity가 흔들리고, 어떤 protein은 consistently 낮게 검출되며, 어떤 sample에서는 missed cleavage peptide가 갑자기 증가한다. 같은 샘플인데 digestion batch만 달라졌을 뿐인데 peptide profile이 미묘하게 바뀌는 경우도 있다.

처음에는 instrument variability처럼 보일 수 있다. LC condition 문제 같기도 하고, ion suppression 때문처럼 느껴질 수도 있다. 하지만 데이터를 끝까지 따라가다 보면 문제의 시작점은 생각보다 훨씬 앞에 있는 경우가 많다. 바로 digestion 자체다.

그리고 이 시점에서 중요한 사실 하나를 이해하게 된다. Trypsin digestion은 우리가 생각하는 것처럼 완벽하게 작동하지 않는다는 점이다. 오히려 proteomics 전체에서 가장 복잡하고 불안정한 과정 중 하나에 가깝다.

1. Trypsin은 “모든 lysine과 arginine을 자르지 않는다”

Proteomics를 처음 배울 때 trypsin은 lysine(K)과 arginine(R) 뒤를 절단한다고 배운다. 마치 deterministic rule처럼 설명된다. 하지만 실제 단백질 환경에서 trypsin cleavage는 그렇게 단순하게 작동하지 않는다.

동일한 lysine residue라도 어떤 위치는 매우 잘 절단되지만, 어떤 위치는 거의 절단되지 않는다. 문제는 이 차이가 random하지 않다는 점이다. 단백질 구조, 주변 amino acid composition, local folding, PTM 존재 여부 같은 요소들이 cleavage efficiency를 계속 바꿔놓는다.

예를 들어 cleavage site 근처에 proline이 존재하면 trypsin cleavage efficiency는 급격히 감소하는 경우가 많다. 이미 오래전부터 알려진 현상이지만 실제 proteomics 데이터에서는 지금도 매우 흔하게 나타난다.

또 어떤 cleavage site는 단백질 내부 깊숙한 구조 안에 묻혀 있다. 우리가 sample preparation 과정에서 denaturation을 수행하더라도 모든 protein structure가 완전히 펼쳐지는 것은 아니다. 일부 region은 여전히 접근성이 낮다. 결국 trypsin은 theoretically 존재하는 cleavage site를 모두 동일하게 사용할 수 없다.

이 말은 곧, 우리가 얻는 peptide population 자체가 이미 structural accessibility bias를 포함하고 있다는 뜻이다.

2. 실제 raw data에서는 missed cleavage가 항상 존재한다

Proteomics raw data를 peptide level에서 자세히 보면 missed cleavage peptide는 거의 항상 존재한다. 어떤 dataset에서는 전체 peptide의 10~20% 이상이 partially cleaved form으로 나타나기도 한다.

예를 들어 theoretically tryptic peptide가 “AAKPEPTIDER” 형태로 생성되어야 하는데, 실제 raw file에서는 “KAAKPEPTIDER” 같은 longer peptide가 함께 존재하는 경우가 있다. 동일 protein 안에서도 어떤 cleavage site는 완전히 절단되고, 어떤 site는 partially digested 상태로 남는다.

흥미로운 것은 이 현상이 replicate마다 완전히 동일하지 않다는 점이다. 어떤 run에서는 fully cleaved peptide intensity가 dominant하지만, 다른 run에서는 missed cleavage peptide 비율이 증가한다.

결과적으로 동일 protein abundance라도 peptide signal distribution 자체가 달라질 수 있다.

많은 사람들이 missed cleavage를 단순 technical imperfection 정도로 생각하지만, 실제로는 quantification variability와 identification bias를 만드는 중요한 구조적 원인 중 하나다.

3. 단백질 구조는 생각보다 쉽게 풀리지 않는다

Proteomics sample preparation에서는 보통 urea나 guanidine hydrochloride 같은 chaotropic agent를 사용해 protein denaturation을 유도한다. 많은 사람들은 이 과정을 통해 단백질이 완전히 펼쳐진다고 생각한다.

하지만 실제로는 그렇지 않다.

일부 protein complex는 매우 강한 structural stability를 갖는다. 특히 membrane protein, cytoskeletal complex, aggregation-prone protein은 완전한 unfolding이 어려운 경우가 많다. 심지어 reducing condition과 detergent를 사용해도 일부 domain은 부분적으로 folded 상태를 유지한다.

이 경우 trypsin accessibility는 극단적으로 달라진다. Exposed region은 빠르게 digestion되지만 buried region은 거의 절단되지 않는다.

실제 membrane proteomics 데이터를 보면 hydrophobic transmembrane domain 근처 peptide는 consistently 낮은 recovery를 보이는 경우가 많다. 이는 LC-MS ionization 문제만이 아니라 digestion accessibility 자체가 제한되기 때문이기도 하다.

즉 trypsin digestion은 단순한 enzymatic reaction이 아니라, protein folding landscape 위에서 이루어지는 매우 복잡한 과정이다.

4. Trypsin 자체도 완벽한 효소가 아니다

많은 사람들이 digestion variability를 sample 문제로만 생각하지만, 사실 trypsin 자체도 매우 불안정한 효소다.

Trypsin activity는 pH, temperature, salt concentration, residual detergent, chaotropic agent 농도 등에 민감하게 반응한다. 예를 들어 residual SDS가 충분히 제거되지 않으면 trypsin activity는 급격히 감소할 수 있다. 높은 urea concentration 역시 prolonged exposure 시 trypsin stability를 떨어뜨린다.

또 trypsin은 시간이 지나면서 autolysis를 겪는다. 즉 자기 자신을 분해하기 시작한다. 실제 raw data를 보면 trypsin autolysis peptide가 지속적으로 관찰된다.

이 문제는 digestion efficiency variability를 더욱 복잡하게 만든다. 동일 protocol을 사용해도 enzyme lot, storage 상태, incubation duration에 따라 digestion behavior가 달라질 수 있기 때문이다.

Proteomics에서 가장 많이 사용되는 효소조차 완전히 안정적이지 않다는 사실은 생각보다 중요하다.

5. Overdigestion도 데이터 왜곡을 만든다

많은 사람들이 digestion 문제를 “충분히 안 잘린 상태” 중심으로 생각한다. 하지만 실제로는 너무 오래 digestion하는 것도 문제다.

Excessive incubation에서는 일부 peptide가 secondary cleavage를 겪거나 nonspecific degradation이 증가한다. 특히 작은 peptide는 prolonged digestion 동안 stability가 낮아질 수 있다.

실제 peptide length distribution을 비교해보면 overdigestion 조건에서는 shorter peptide 비율이 증가하고 canonical peptide intensity는 감소하는 현상이 나타난다.

문제는 이 변화가 random하지 않다는 점이다. 특정 sequence motif를 가진 peptide들이 preferentially 영향을 받는다. 결국 protein-specific quantification distortion으로 이어질 수 있다.

즉 digestion은 “더 오래 한다고 더 완벽해지는 과정”이 아니다.

6. PTM은 digestion을 완전히 바꿔놓는다

Proteomics에서 PTM(post-translational modification)은 단순 identification complexity만 증가시키는 것이 아니다. 실제로는 trypsin cleavage efficiency 자체를 바꿔놓는다.

예를 들어 phosphorylation은 local charge distribution과 structural accessibility를 변화시킬 수 있다. Glycosylation은 bulky structure 때문에 cleavage site 접근성을 물리적으로 방해하기도 한다.

실제 phosphoproteomics 데이터를 보면 phosphorylated peptide 주변 cleavage site에서 missed cleavage frequency가 증가하는 사례가 흔하다.

이 말은 곧 PTM abundance 변화가 peptide generation efficiency 변화와 함께 섞여 나타날 수 있다는 뜻이다. 연구자는 phosphorylation-dependent signaling change를 보고 있다고 생각하지만, 실제로는 digestion accessibility 변화 일부가 함께 반영된 결과일 수도 있다.

7. 모든 peptide가 LC-MS 친화적인 것도 아니다

Trypsin digestion이 성공적으로 일어났다고 해서 모든 peptide가 동일하게 관찰 가능한 것은 아니다.

어떤 peptide는 너무 hydrophobic해서 LC retention이 불안정하고, 어떤 peptide는 ionization efficiency가 낮으며, 어떤 peptide는 너무 짧거나 너무 길어서 MS detection efficiency가 떨어진다.

결국 실제 proteomics에서 관찰되는 peptide는 “생성된 peptide”가 아니라 “생성된 뒤 살아남아 LC-MS에서 잘 보이는 peptide”다.

이 과정에서 또 하나의 selection bias가 발생한다.

예를 들어 어떤 protein은 theoretically 수십 개 peptide를 생성할 수 있지만, 실제로 consistently detectable한 peptide는 몇 개뿐인 경우가 많다. 그리고 이 few observable peptides가 protein quantification 전체를 대표하게 된다.

즉 proteomics는 digestion completeness뿐 아니라 peptide observability bias까지 함께 안고 있는 구조다.

8. Digestion variability는 protein abundance처럼 보일 수 있다

이 문제가 가장 위험해지는 순간은 digestion variability가 biological signal처럼 보일 때다.

예를 들어 특정 sample batch에서 digestion efficiency가 약간만 낮아져도 일부 peptide intensity는 systematic하게 감소할 수 있다. 특히 membrane protein이나 structured protein은 영향을 더 크게 받는다.

이 경우 downstream differential expression analysis에서는 실제 abundance reduction처럼 보일 수 있다.

실제 clinical proteomics dataset에서는 digestion batch마다 missed cleavage rate와 peptide intensity distribution이 함께 변하면서 특정 pathway enrichment 결과까지 달라지는 사례가 보고된다.

문제는 이런 변화가 replicate 간 consistency를 유지할 수도 있다는 점이다. 즉 technical bias가 매우 convincing한 biological signal처럼 보일 수 있다.

9. 왜 우리는 digestion을 너무 쉽게 믿는가

가장 큰 이유는 proteomics workflow 전체가 digestion을 전제로 설계되어 있기 때문이다.

우리는 이미 digestion된 peptide를 입력 데이터로 사용한다. Search engine도, quantification algorithm도, protein inference도 모두 “tryptic peptide가 안정적으로 생성되었다”는 가정 위에서 작동한다.

하지만 실제로는 이 전제가 완전히 성립하지 않는다.

또한 digestion variability는 raw level 깊숙한 곳에 숨어 있기 때문에 최종 protein table에서는 잘 보이지 않는다. 연구자는 fold change와 p-value를 보게 되지만, 그 값이 어떤 peptide generation bias에서 비롯되었는지는 쉽게 드러나지 않는다.

결국 우리는 매우 복잡하고 불완전한 과정을 지나 생성된 peptide signal을 기반으로 biology를 해석하고 있는 셈이다.

10. 실제 데이터에서 반드시 확인해야 하는 것들

Proteomics 데이터를 해석할 때 digestion quality를 단순히 “overnight digestion 수행 여부” 수준으로 생각하면 위험하다.

Missed cleavage distribution을 peptide class별로 확인할 필요가 있다. 특정 protein group에서 missed cleavage frequency가 높다면 structural accessibility 문제를 의심해야 한다.

Peptide-level variability 역시 중요하다. 동일 protein 안에서도 특정 peptide만 반복적으로 흔들린다면 digestion-sensitive peptide일 가능성이 있다.

가능하다면 digestion QC peptide를 활용하거나 stable isotope-labeled standard를 이용해 digestion reproducibility를 직접 모니터링하는 것이 좋다.

또 raw chromatogram inspection을 통해 fully cleaved peptide와 partially cleaved peptide가 어떻게 coexist하는지 직접 보는 경험도 중요하다. 실제로 이 과정을 보면 digestion이 얼마나 불완전한 시스템인지 훨씬 실감하게 된다.

결론

Trypsin digestion은 proteomics에서 가장 익숙한 과정이지만, 동시에 가장 과신되기 쉬운 과정이기도 하다.

실제 digestion은 단순한 효소 반응이 아니다. Protein folding, cleavage accessibility, PTM, enzyme stability, buffer chemistry, peptide observability 같은 수많은 요소들이 동시에 얽혀 있다.

결국 우리가 proteomics에서 측정하는 peptide signal은 “완벽하게 생성된 결과”가 아니라, 복잡한 digestion bias를 거쳐 살아남은 peptide들의 집합에 가깝다.

이 사실을 이해하기 시작하면 이전에는 단순한 technical noise처럼 보였던 현상들이 다르게 보이기 시작한다. 왜 특정 peptide만 흔들리는지, 왜 membrane protein quantification이 어려운지, 왜 replicate 간 fold change가 예상보다 불안정한지에 대한 답이 digestion 단계 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90