티스토리 뷰

제약산업

Protein inference 문제의 본질

pharma_info 2026. 5. 29. 20:11
728x90

Protein inference 문제의 본질
Protein inference 문제의 본질

Proteomics에서 우리가 실제로 보는 것은 단백질일까, 아니면 peptide 패턴일까

Proteomics를 처음 배우는 사람들은 대개 이렇게 생각한다.
Mass spectrometry로 단백질을 측정하고, 어떤 단백질이 증가했는지 확인한 뒤 biology를 해석한다고.

논문도 대부분 그렇게 보인다. Volcano plot에는 protein name이 적혀 있고, pathway enrichment 역시 protein list 기반으로 진행된다. 그래서 자연스럽게 “이 데이터는 단백질 abundance를 직접 보여주는구나”라고 받아들이게 된다.

하지만 raw data를 오래 보다 보면 어느 순간 이상한 경험을 하게 된다.

같은 protein인데 peptide마다 abundance 방향이 다르다. 어떤 peptide는 증가하고 어떤 peptide는 감소한다. 특정 isoform만 변한 것 같은데 software는 전체 protein abundance를 하나의 숫자로 요약한다. Shared peptide가 많은 protein family에서는 identification 자체가 불안정해진다.

그리고 결국 아주 근본적인 질문에 도달하게 된다.

“우리는 정말 protein을 측정하고 있는 걸까?”

이 질문이 바로 protein inference 문제의 시작이다.

Proteomics에서 mass spectrometer가 직접 측정하는 것은 protein이 아니다. 실제로 instrument가 보는 것은 digestion 이후 생성된 peptide ion이다. 즉 우리가 protein abundance라고 부르는 것은 peptide signal을 기반으로 역으로 추론한 결과에 가깝다.

그리고 이 “추론(inference)” 과정 안에는 생각보다 훨씬 많은 가정과 불확실성이 숨어 있다.

1. Mass spectrometer는 protein을 직접 보지 않는다

이 문제를 이해하려면 가장 먼저 proteomics workflow의 본질을 봐야 한다.

Bottom-up proteomics에서는 단백질을 그대로 측정하지 않는다.

먼저 protein mixture를 trypsin 같은 protease로 digestion한다. 그러면 단백질은 수많은 peptide 조각으로 분해된다. LC-MS/MS는 이 peptide들을 separation하고 fragmentation해서 sequence를 추정한다.

즉 instrument가 실제로 detect하는 것은 peptide precursor와 fragment ion이다.

문제는 여기서부터 시작된다.

하나의 protein은 여러 peptide를 만든다. 그리고 어떤 peptide는 여러 protein에 동시에 속할 수도 있다.

즉 peptide → protein 관계는 생각보다 단순하지 않다.

2. Peptide는 protein의 “대표자”가 아니다

많은 사람들이 peptide를 protein의 representative fragment처럼 생각한다.

하지만 실제 proteomics에서는 peptide마다 behavior가 극단적으로 다르다.

어떤 peptide는 ionization efficiency가 매우 높아 항상 강한 signal을 만든다. 반면 어떤 peptide는 abundance가 충분해도 거의 보이지 않는다.

또:

  • hydrophobicity
  • charge state
  • missed cleavage
  • PTM presence
  • sequence length
  • chromatographic behavior

같은 요소들이 detectability를 계속 바꾼다.

즉 동일 protein에서 나온 peptide라도 서로 completely different measurement behavior를 가진다.

결국 protein abundance는 “일관된 여러 조각의 평균”이 아니라, 서로 다른 detectability bias를 가진 peptide들의 혼합 결과가 된다.

3. Shared peptide 문제

하나의 peptide가 여러 protein에 속할 수 있다

Protein inference에서 가장 유명한 문제가 shared peptide다.

예를 들어 homologous protein family를 생각해보자.

  • actin isoform
  • tubulin family
  • HLA protein
  • immunoglobulin
  • kinase family

이런 protein들은 sequence similarity가 매우 높다.

결과적으로 digestion 이후 생성된 peptide 중 상당수가 여러 protein에 공통으로 존재한다.

문제는 mass spectrometer가 peptide sequence는 알 수 있어도, 그 peptide가 정확히 어느 protein에서 왔는지는 모른다는 점이다.

즉 하나의 peptide signal을 여러 protein이 동시에 “공유”하게 된다.

그리고 software는 이 ambiguous peptide를 이용해 protein abundance를 추론해야 한다.

4. Parsimony principle의 함정

대부분 proteomics search engine은 parsimony principle을 사용한다.

즉 “가장 적은 수의 protein으로 observed peptide를 설명하자”는 접근이다.

겉보기에는 합리적이다.

하지만 실제 biology는 그렇게 단순하지 않다.

예를 들어 실제 sample에 여러 isoform이 동시에 존재해도 software는 최소 protein set만 선택할 수 있다.

결과적으로:

  • 일부 isoform이 사라지거나
  • 실제 존재하는 protein이 collapse되거나
  • ambiguous assignment가 발생한다

즉 protein identification 자체가 computational simplification 결과가 된다.

우리는 biology를 보는 것이 아니라, peptide explanation efficiency를 보고 있을 수도 있다.

5. Protein group은 실제 biological entity가 아니다

MaxQuant나 Proteome Discoverer 결과를 보면 “protein group”이라는 표현이 자주 등장한다.

이것은 shared peptide 때문에 정확한 single protein assignment가 어려울 때 여러 protein을 묶어버리는 개념이다.

문제는 연구자들이 종종 이를 실제 단백질 하나처럼 해석한다는 점이다.

하지만 protein group은 biological object라기보다 statistical compromise에 가깝다.

예를 들어 어떤 protein group abundance change가 나타났다고 해도:

  • 특정 isoform 변화인지
  • family-wide change인지
  • shared peptide artifact인지

구분하기 어려운 경우가 많다.

즉 protein group abundance는 실제 biology와 computational ambiguity가 섞인 결과다.

6. Protein quantification은 peptide summarization 문제다

Protein inference 문제는 identification에서 끝나지 않는다.

Quantification 단계에서는 더 복잡해진다.

하나의 protein abundance를 계산하기 위해 software는 여러 peptide intensity를 통합한다.

문제는 peptide behavior가 서로 다르다는 점이다.

예를 들어:

  • peptide A → 증가
  • peptide B → 감소
  • peptide C → missing

상황이 발생할 수 있다.

그러면 software는 이들을 평균하거나 weighted model로 요약한다.

하지만 이 summary value는 실제 biological reality를 대표하지 않을 수 있다.

특히 PTM, proteolysis, isoform switching이 존재하면 peptide-level heterogeneity가 훨씬 커진다.

즉 protein abundance는 실제로 존재하는 하나의 값이라기보다 peptide pattern을 억지로 단일 숫자로 압축한 결과일 수도 있다.

7. Isoform biology는 대부분 사라진다

Proteomics에서 isoform resolution은 생각보다 매우 어렵다.

많은 isoform은 unique peptide가 거의 없거나 detectability가 낮다.

결국 대부분 quantification은 shared peptide 중심으로 이루어진다.

문제는 biology에서 isoform difference가 매우 중요하다는 점이다.

예를 들어:

  • signaling-active isoform
  • truncated isoform
  • splice variant
  • localization-specific isoform

은 completely different biological function을 가질 수 있다.

하지만 bottom-up proteomics에서는 이들이 하나의 protein group abundance로 collapse되는 경우가 많다.

즉 중요한 biology가 peptide averaging 과정에서 사라질 수 있다.

8. PTM은 protein inference를 더 복잡하게 만든다

Post-translational modification은 peptide-level heterogeneity를 극단적으로 증가시킨다.

예를 들어 phosphorylation이 특정 peptide에만 존재한다고 가정해보자.

그러면 modified peptide abundance와 unmodified peptide abundance가 completely different behavior를 보일 수 있다.

문제는 total protein quantification이 이를 하나로 합쳐버린다는 점이다.

실제 signaling biology는 phosphosite-specific activation인데, protein-level abundance는 거의 변하지 않는 경우도 많다.

즉 protein inference는 PTM-driven biology를 flattening할 수 있다.

9. Differential expression도 inference artifact를 포함한다

Volcano plot에서 보이는 differential protein 역시 순수 biology가 아닐 수 있다.

예를 들어:

  • shared peptide assignment bias
  • missing peptide pattern
  • peptide detectability shift
  • isoform ambiguity

같은 요소들이 함께 작동한다.

특히 low peptide count protein은 작은 peptide fluctuation만으로도 dramatic fold change처럼 보일 수 있다.

즉 differential protein abundance는 실제 biological regulation과 peptide summarization artifact가 섞인 결과다.

10. 왜 우리는 protein abundance를 쉽게 믿게 되는가

가장 큰 이유는 software가 최종 결과를 매우 깔끔하게 보여주기 때문이다.

Peptide complexity는 대부분 숨겨지고, 최종 output에는:

  • protein name
  • fold change
  • p-value

만 남는다.

연구자는 자연스럽게 이것을 “단백질 abundance”라고 받아들인다.

하지만 그 숫자 뒤에는:

  • shared peptide ambiguity
  • peptide detectability bias
  • missing structure
  • isoform collapse
  • computational summarization

이 숨어 있다.

즉 우리는 실제 protein을 보는 것이 아니라, peptide evidence 기반 reconstruction을 보고 있는 경우가 많다.

11. 실무적으로 어떻게 접근해야 하는가

Protein inference 문제를 완전히 해결하는 방법은 아직 없다.

하지만 최소한 다음은 반드시 확인해야 한다.

Peptide-level consistency 확인

Protein abundance만 보지 말고 peptide behavior가 서로 일관적인지 확인해야 한다.

Unique peptide 존재 여부

Shared peptide 기반 quantification인지, truly unique evidence가 있는지 봐야 한다.

Low peptide count protein 주의

1~2 peptide 기반 protein quantification은 매우 불안정할 수 있다.

Isoform biology cautious interpretation

특히 splice variant나 homologous family는 protein group interpretation을 조심해야 한다.

Orthogonal validation

Western blot, PRM, intact protein assay 같은 independent validation이 중요하다.

결론

Protein inference 문제의 본질은 매우 단순하다.

Proteomics는 protein을 직접 측정하지 않는다. 실제로는 peptide signal을 기반으로 protein existence와 abundance를 역으로 추론한다.

문제는 peptide가 서로 다른 detectability를 가지며, 여러 protein 사이에서 공유되고, PTM과 isoform biology가 peptide pattern 자체를 복잡하게 만든다는 점이다.

결국 우리가 보는 “protein abundance”는 실제 biological object라기보다 peptide evidence 위에 세워진 computational reconstruction에 가깝다.

이 사실을 이해하기 시작하면 이전에는 너무 명확해 보였던 volcano plot과 protein table이 다르게 보이기 시작한다. 왜 peptide마다 결과가 다른지, 왜 isoform biology가 사라지는지, 왜 일부 biomarker가 validation에서 재현되지 않는지에 대한 답이 protein inference 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90