티스토리 뷰

728x90

Peptide redundancy가 해석을 어렵게 만드는 이유
Peptide redundancy가 해석을 어렵게 만드는 이유

Proteomics에서 peptide가 많아질수록 오히려 biology가 흐려지는 순간

Proteomics 데이터를 처음 접하면 많은 사람들이 이렇게 생각한다.
“Peptide를 많이 검출할수록 protein identification이 더 정확해지겠지.”

실제로도 어느 정도는 맞다. Protein coverage가 높아지면 identification confidence가 증가하고, quantification reproducibility도 좋아질 가능성이 높다. 그래서 proteomics에서는 더 많은 peptide를 얻기 위해 sample prep을 최적화하고, LC gradient를 늘리고, fractionation까지 수행한다.

문제는 어느 순간부터 peptide 수 증가가 단순한 정보 증가로 이어지지 않는다는 점이다.

오히려 데이터는 더 복잡해지고, 같은 protein 안에서 peptide끼리 서로 다른 방향으로 움직이며, 어떤 peptide는 증가하고 어떤 peptide는 감소한다. Shared peptide는 여러 protein 사이를 떠돌고, isoform은 구분되지 않으며, PTM peptide는 전체 abundance와 전혀 다른 behavior를 보인다.

그리고 결국 이런 질문에 도달하게 된다.

“우리는 protein biology를 보고 있는 걸까, 아니면 peptide fragmentation 패턴을 보고 있는 걸까?”

이 지점이 바로 peptide redundancy 문제의 본질이다.

Proteomics에서는 peptide가 많아질수록 biological resolution이 높아지는 것이 아니라, 서로 다른 biological layer와 analytical bias가 동시에 섞이기 시작한다. 즉 redundancy는 단순 중복 정보가 아니라, 서로 충돌하는 biological evidence가 공존하는 상태에 가깝다.

1. 하나의 protein은 여러 peptide로 분해된다

Bottom-up proteomics의 기본 구조는 단순하다.

Protein을 trypsin 같은 protease로 digestion하면 수많은 peptide fragment가 생성된다. LC-MS/MS는 이 peptide들을 분석해 원래 protein을 추론한다.

문제는 하나의 protein이 단 하나의 peptide로 표현되지 않는다는 점이다.

실제 protein 하나에서는:

  • fully cleaved peptide
  • missed-cleavage peptide
  • modified peptide
  • semi-tryptic peptide
  • oxidized peptide

등 다양한 형태가 동시에 생성될 수 있다.

즉 protein abundance는 애초에 단일 signal이 아니라 heterogeneous peptide population 위에 존재한다.

그리고 이 peptide들이 항상 같은 방향으로 움직이지 않는다.

2. Peptide마다 detectability가 다르다

Proteomics에서 peptide redundancy가 복잡해지는 가장 큰 이유 중 하나는 peptide detectability 차이다.

같은 protein에서 나온 peptide라도:

  • ionization efficiency
  • hydrophobicity
  • charge state
  • LC retention behavior
  • fragmentation efficiency

가 모두 다르다.

결과적으로 어떤 peptide는 항상 강하게 보이고, 어떤 peptide는 replicate마다 disappearance를 반복한다.

즉 peptide abundance는 단순 protein amount뿐 아니라 “얼마나 잘 보이는가”를 동시에 반영한다.

문제는 software가 이 heterogeneous peptide를 하나의 protein abundance로 요약해야 한다는 점이다.

3. Peptide끼리 서로 다른 biological information을 가진다

더 중요한 문제는 peptide가 동일 biology를 반영하지 않는다는 점이다.

예를 들어 어떤 protein이 phosphorylation을 겪는다고 가정해보자.

  • phosphopeptide → 증가
  • unmodified peptide → unchanged

상황이 발생할 수 있다.

또 proteolytic cleavage가 일어나면 특정 region-derived peptide만 감소할 수 있다.

Isoform switching이 발생하면 unique exon peptide만 변하고 shared peptide는 유지될 수 있다.

즉 peptide는 단순 redundant fragment가 아니라 서로 다른 biological state를 반영하는 독립 정보가 될 수 있다.

그런데 protein-level summarization은 이들을 평균화해버린다.

결국 중요한 biology가 peptide averaging 과정에서 사라질 수 있다.

4. Shared peptide는 redundancy를 ambiguity로 바꾼다

Peptide redundancy가 가장 위험해지는 순간은 shared peptide가 등장할 때다.

많은 protein family는 sequence similarity가 매우 높다.

  • actin
  • tubulin
  • keratin
  • immunoglobulin
  • HLA
  • kinase family

같은 경우 digestion 이후 생성되는 peptide 상당수가 여러 protein에 공통으로 존재한다.

즉 peptide 하나가 여러 protein에 동시에 매핑된다.

문제는 mass spectrometer가 peptide sequence는 알 수 있어도, 그 peptide가 정확히 어느 protein에서 유래했는지는 알 수 없다는 점이다.

결국 하나의 peptide signal을 여러 protein이 공유하게 된다.

이 시점부터 redundancy는 단순 중복이 아니라 interpretation ambiguity가 된다.

5. Protein group은 redundancy를 “묶어서 숨긴다”

Search engine은 shared peptide 문제를 해결하기 위해 protein group 개념을 사용한다.

즉 구분 불가능한 protein들을 하나로 묶어버린다.

겉보기에는 practical solution처럼 보인다. 하지만 실제 biology 관점에서는 상당한 정보 손실이 발생한다.

예를 들어 특정 isoform만 증가했더라도 shared peptide 중심 quantification에서는 family 전체 abundance 변화처럼 보일 수 있다.

반대로 실제 multiple protein change가 하나의 protein group signal로 collapse될 수도 있다.

즉 peptide redundancy는 protein-level simplification 과정에서 biology를 흐리게 만든다.

6. More peptide ≠ better quantification

많은 사람들이 peptide 수가 많을수록 quantification이 더 안정적이라고 생각한다.

하지만 실제로는 peptide heterogeneity가 커질수록 summarization conflict도 증가한다.

예를 들어:

  • peptide A → 증가
  • peptide B → 감소
  • peptide C → missing
  • peptide D → noisy fluctuation

상황이 발생할 수 있다.

그러면 software는 이를 평균하거나 weighted model로 통합한다.

문제는 resulting protein abundance가 실제 어떤 peptide behavior도 제대로 반영하지 않을 수 있다는 점이다.

즉 redundancy 증가가 signal reinforcement가 아니라 contradictory evidence accumulation으로 작동할 수 있다.

7. PTM biology는 redundancy 안에서 묻히기 쉽다

Post-translational modification은 peptide redundancy 문제를 극단적으로 만든다.

실제 signaling biology는 종종 특정 phosphosite 하나에서 발생한다.

하지만 total protein abundance summarization은:

  • modified peptide
  • unmodified peptide
  • neighboring peptide

를 모두 함께 평균화한다.

결과적으로 실제 signaling activation이 protein-level에서는 거의 보이지 않을 수 있다.

즉 중요한 biology가 peptide redundancy 안에서 dilution된다.

특히 phosphoproteomics에서는 peptide-level interpretation이 protein-level보다 훨씬 중요해지는 이유가 여기에 있다.

8. Missing value는 redundancy 구조를 더 왜곡한다

Proteomics에서는 모든 peptide가 항상 검출되지 않는다.

Low abundance peptide는 replicate마다 사라질 수 있고, stochastic DDA sampling 때문에 일부 peptide만 반복적으로 선택될 수도 있다.

문제는 peptide redundancy가 클수록 missing pattern complexity도 증가한다는 점이다.

어떤 peptide는 consistently detected되지만, 다른 peptide는 condition-specific missing을 보인다.

이 상태에서 protein summarization을 수행하면 abundance estimate가 missing structure 영향을 강하게 받는다.

즉 redundancy는 robustness를 높이는 동시에 missing-induced instability도 함께 증가시킨다.

9. Differential expression도 redundancy artifact를 포함한다

Volcano plot에 나타나는 differential protein 역시 redundancy 구조 영향을 받는다.

예를 들어 일부 peptide만 strong change를 보였는데, summarization 과정에서 전체 protein differential expression처럼 보일 수 있다.

반대로 특정 peptide change가 다른 peptide average에 의해 flattening될 수도 있다.

특히 low peptide count protein에서는 individual peptide fluctuation 하나가 protein-level significance를 결정하기도 한다.

즉 protein differential expression은 실제 biology와 peptide redundancy structure가 함께 만든 결과다.

10. 왜 redundancy 문제는 잘 안 보이는가

가장 큰 이유는 대부분 software가 peptide complexity를 숨기기 때문이다.

최종 결과에는:

  • protein name
  • fold change
  • p-value

만 남는다.

Peptide-level conflict와 redundancy structure는 summary 과정 뒤로 사라진다.

연구자는 자연스럽게 protein abundance를 하나의 명확한 biological quantity처럼 받아들인다.

하지만 실제로는 그 숫자 뒤에:

  • shared peptide ambiguity
  • PTM heterogeneity
  • isoform overlap
  • missing structure
  • detectability bias

가 숨어 있다.

즉 우리는 종종 protein biology보다 peptide evidence compression 결과를 보고 있는 셈이다.

11. 실무적으로 어떻게 접근해야 하는가

Peptide redundancy 문제를 완전히 제거하는 방법은 없다.

하지만 최소한 다음은 반드시 확인해야 한다.

Peptide-level consistency 확인

Protein abundance만 보지 말고 peptide들이 동일 방향으로 움직이는지 확인해야 한다.

Unique peptide 중심 해석

Shared peptide보다 unique peptide evidence를 우선적으로 보는 것이 중요하다.

PTM peptide separate interpretation

Modified peptide는 total protein abundance와 별도로 해석해야 한다.

Isoform-aware analysis

가능하다면 isoform-specific peptide를 확인해야 한다.

Protein group cautious interpretation

Protein group abundance를 단일 biological entity처럼 해석하지 않는 것이 중요하다.

결론

Peptide redundancy는 단순히 “같은 protein에서 peptide가 많이 나온다”는 문제가 아니다. 실제로는 서로 다른 biological state와 analytical bias가 하나의 protein abundance 안에 동시에 섞이는 구조다.

Peptide마다 detectability가 다르고, shared peptide는 multiple protein ambiguity를 만들며, PTM과 isoform biology는 peptide-level heterogeneity를 극단적으로 증가시킨다. 결국 protein abundance는 명확한 biological quantity라기보다 서로 충돌하는 peptide evidence를 압축한 결과에 가까워질 수 있다.

이 사실을 이해하기 시작하면 이전에는 단순히 coverage가 높다고 좋게만 보였던 proteomics 데이터가 다르게 보이기 시작한다. 왜 peptide마다 방향이 다른지, 왜 isoform biology가 사라지는지, 왜 일부 biomarker가 validation에서 흔들리는지에 대한 답이 peptide redundancy 구조 안에 숨어 있는 경우가 생각보다 많기 때문이다.

728x90