티스토리 뷰

728x90

 

Shotgun Proteomics에서 재현성이 무너지는 진짜 이유
Shotgun Proteomics에서 재현성이 무너지는 진짜 이유

1. Shotgun proteomics의 기본 구조: 재현성에 불리한 설계

Shotgun proteomics는 일반적으로 다음 workflow를 따른다:

  1. 단백질 추출
  2. 효소 소화 (trypsin digestion)
  3. LC-MS/MS 분석 (DDA)
  4. peptide identification
  5. protein inference
  6. 정량 분석

이 과정의 핵심 문제는 데이터 획득 방식(DDA) 에 있다.

2. 근본 원인 1: DDA의 확률적(stochastic) 샘플링

DDA(Data-Dependent Acquisition)의 작동 방식

  • MS1에서 강한 precursor ion 선택
  • 상위 N개 이온만 MS/MS 수행

즉, 기기는 매 스캔마다 “가장 강한 신호”만 선택한다.

왜 이것이 재현성을 깨는가

같은 샘플이라도:

  • 미세한 noise 차이
  • 이온화 효율 변동
  • co-eluting peptide 경쟁

→ 선택되는 precursor가 달라짐
→ MS/MS 스펙트럼 달라짐
→ 검출 단백질 목록 달라짐

👉 결과: 같은 샘플인데 다른 단백질이 검출됨

3. Missing value의 구조적 발생

Shotgun proteomics 데이터에서 흔히 보이는 현상:

  • replicate 간 일부 단백질이 사라짐
  • low abundance 단백질에서 특히 심함

원인

  • MS/MS가 수행되지 않음
  • identification 실패
  • 신호가 threshold 미만

👉 이것은 데이터 결손이 아니라 샘플링 실패

4. 근본 원인 2: Sample preparation variability

Proteomics는 metabolomics보다 전처리 단계가 훨씬 복잡하다.

주요 변동 요인

✔ 단백질 추출 효율

  • lysis buffer 조성
  • 조직 파쇄 효율
  • 세포막 파괴 정도

✔ 효소 소화 변동성

  • trypsin activity
  • digestion 시간
  • 온도 및 pH

✔ peptide 손실

  • desalting 과정
  • 튜브 표면 흡착
  • low abundance peptide 손실

👉 전처리 변동은 재현성의 숨은 주요 원인

5. 근본 원인 3: Protein inference 문제

Shotgun proteomics는 peptide를 통해 단백질을 추론한다.

문제

  • shared peptide 존재
  • isoform 구분 어려움
  • homologous protein 혼동

결과

  • 다른 단백질로 매핑
  • 단백질 정량 값 변동
  • replicate 간 불일치

👉 재현성 문제는 identification 단계에서도 발생한다.

6. 근본 원인 4: LC separation의 미세 변동

LC는 proteomics 재현성의 핵심이다.

영향 요인

  • column aging
  • gradient 정확도
  • temperature fluctuation
  • dead volume 변화

결과

  • peptide elution time 변화
  • co-elution 패턴 변화
  • precursor selection 변화

👉 LC drift → DDA sampling 변화 → 재현성 붕괴

7. 근본 원인 5: Dynamic range 문제

Proteome의 dynamic range는 10⁶ 이상이다.

결과

  • high abundance peptide가 MS 시간을 독점
  • low abundance peptide는 MS/MS 기회 없음

👉 replicate마다 검출되는 단백질 집합이 달라짐

8. Shotgun proteomics에서 재현성이 특히 낮아지는 상황

✔ low abundance 단백질 연구

→ sampling 확률 낮음

✔ 복잡한 매트릭스 (plasma 등)

→ dynamic range 극단적

✔ 소량 샘플

→ stochastic effect 증가

✔ 긴 분석 시간 (multi-day)

→ LC drift 누적

9. 재현성 문제의 실제 데이터 패턴

다음 패턴이 보이면 구조적 문제일 가능성이 높다.

  • replicate 간 단백질 overlap 낮음
  • missing value가 abundance 의존적
  • PCA에서 replicate 분산 큼
  • peptide level variability > protein level

10. 왜 metabolomics보다 proteomics가 더 어려운가

 

항목 Metabolomics Proteomics
전처리 단순 매우 복잡
동적 범위 10³–10⁴ 10⁶ 이상
동정 난이도 상대적으로 낮음 높음
데이터 결손 적음 매우 흔함
샘플링 방식 전체 스캔 가능 선택적 (DDA)

👉 구조적으로 proteomics가 재현성에 불리하다.

11. 해결 전략: 기술적 접근

✔ DIA(Data-Independent Acquisition)

  • 모든 precursor fragmentation
  • missing value 감소
  • 정량 재현성 향상

👉 최근 표준으로 이동 중

✔ Sample prep 표준화

  • automated digestion
  • QC peptide monitoring
  • digestion efficiency control

✔ LC 안정성 관리

  • column usage log
  • retention time calibration
  • system suitability test

12. 데이터 분석 단계에서의 대응 전략

✔ missing value 처리 전략

  • MNAR vs MAR 구분
  • 무분별한 imputation 금지

✔ peptide-level 분석 병행

  • protein inference 오류 탐지

✔ QC 기반 drift 모니터링

13. 핵심 메시지

Shotgun proteomics의 재현성 문제는
연구자의 실수가 아니라,
DDA 기반 데이터 획득 구조에서 비롯된 필연적 한계다.

 

14. 기억해야 할 한 문장

“같은 샘플에서 다른 단백질이 보이는 것은 오류가 아니라, Shotgun proteomics의 본질이다.”

 

15. 실무자를 위한 점검 질문

재현성 문제를 발견했을 때 스스로에게 물어야 한다:

  • DDA sampling 한계를 고려했는가?
  • missing value를 어떻게 해석했는가?
  • 전처리 변동을 모니터링했는가?
  • LC drift 가능성을 평가했는가?
  • DIA 전환이 필요한 단계인가?
728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함