티스토리 뷰

1. Shotgun proteomics의 기본 구조: 재현성에 불리한 설계
Shotgun proteomics는 일반적으로 다음 workflow를 따른다:
- 단백질 추출
- 효소 소화 (trypsin digestion)
- LC-MS/MS 분석 (DDA)
- peptide identification
- protein inference
- 정량 분석
이 과정의 핵심 문제는 데이터 획득 방식(DDA) 에 있다.
2. 근본 원인 1: DDA의 확률적(stochastic) 샘플링
DDA(Data-Dependent Acquisition)의 작동 방식
- MS1에서 강한 precursor ion 선택
- 상위 N개 이온만 MS/MS 수행
즉, 기기는 매 스캔마다 “가장 강한 신호”만 선택한다.
왜 이것이 재현성을 깨는가
같은 샘플이라도:
- 미세한 noise 차이
- 이온화 효율 변동
- co-eluting peptide 경쟁
→ 선택되는 precursor가 달라짐
→ MS/MS 스펙트럼 달라짐
→ 검출 단백질 목록 달라짐
👉 결과: 같은 샘플인데 다른 단백질이 검출됨
3. Missing value의 구조적 발생
Shotgun proteomics 데이터에서 흔히 보이는 현상:
- replicate 간 일부 단백질이 사라짐
- low abundance 단백질에서 특히 심함
원인
- MS/MS가 수행되지 않음
- identification 실패
- 신호가 threshold 미만
👉 이것은 데이터 결손이 아니라 샘플링 실패
4. 근본 원인 2: Sample preparation variability
Proteomics는 metabolomics보다 전처리 단계가 훨씬 복잡하다.
주요 변동 요인
✔ 단백질 추출 효율
- lysis buffer 조성
- 조직 파쇄 효율
- 세포막 파괴 정도
✔ 효소 소화 변동성
- trypsin activity
- digestion 시간
- 온도 및 pH
✔ peptide 손실
- desalting 과정
- 튜브 표면 흡착
- low abundance peptide 손실
👉 전처리 변동은 재현성의 숨은 주요 원인
5. 근본 원인 3: Protein inference 문제
Shotgun proteomics는 peptide를 통해 단백질을 추론한다.
문제
- shared peptide 존재
- isoform 구분 어려움
- homologous protein 혼동
결과
- 다른 단백질로 매핑
- 단백질 정량 값 변동
- replicate 간 불일치
👉 재현성 문제는 identification 단계에서도 발생한다.
6. 근본 원인 4: LC separation의 미세 변동
LC는 proteomics 재현성의 핵심이다.
영향 요인
- column aging
- gradient 정확도
- temperature fluctuation
- dead volume 변화
결과
- peptide elution time 변화
- co-elution 패턴 변화
- precursor selection 변화
👉 LC drift → DDA sampling 변화 → 재현성 붕괴
7. 근본 원인 5: Dynamic range 문제
Proteome의 dynamic range는 10⁶ 이상이다.
결과
- high abundance peptide가 MS 시간을 독점
- low abundance peptide는 MS/MS 기회 없음
👉 replicate마다 검출되는 단백질 집합이 달라짐
8. Shotgun proteomics에서 재현성이 특히 낮아지는 상황
✔ low abundance 단백질 연구
→ sampling 확률 낮음
✔ 복잡한 매트릭스 (plasma 등)
→ dynamic range 극단적
✔ 소량 샘플
→ stochastic effect 증가
✔ 긴 분석 시간 (multi-day)
→ LC drift 누적
9. 재현성 문제의 실제 데이터 패턴
다음 패턴이 보이면 구조적 문제일 가능성이 높다.
- replicate 간 단백질 overlap 낮음
- missing value가 abundance 의존적
- PCA에서 replicate 분산 큼
- peptide level variability > protein level
10. 왜 metabolomics보다 proteomics가 더 어려운가
| 항목 | Metabolomics | Proteomics |
| 전처리 | 단순 | 매우 복잡 |
| 동적 범위 | 10³–10⁴ | 10⁶ 이상 |
| 동정 난이도 | 상대적으로 낮음 | 높음 |
| 데이터 결손 | 적음 | 매우 흔함 |
| 샘플링 방식 | 전체 스캔 가능 | 선택적 (DDA) |
👉 구조적으로 proteomics가 재현성에 불리하다.
11. 해결 전략: 기술적 접근
✔ DIA(Data-Independent Acquisition)
- 모든 precursor fragmentation
- missing value 감소
- 정량 재현성 향상
👉 최근 표준으로 이동 중
✔ Sample prep 표준화
- automated digestion
- QC peptide monitoring
- digestion efficiency control
✔ LC 안정성 관리
- column usage log
- retention time calibration
- system suitability test
12. 데이터 분석 단계에서의 대응 전략
✔ missing value 처리 전략
- MNAR vs MAR 구분
- 무분별한 imputation 금지
✔ peptide-level 분석 병행
- protein inference 오류 탐지
✔ QC 기반 drift 모니터링
13. 핵심 메시지
Shotgun proteomics의 재현성 문제는
연구자의 실수가 아니라,
DDA 기반 데이터 획득 구조에서 비롯된 필연적 한계다.
14. 기억해야 할 한 문장
“같은 샘플에서 다른 단백질이 보이는 것은 오류가 아니라, Shotgun proteomics의 본질이다.”
15. 실무자를 위한 점검 질문
재현성 문제를 발견했을 때 스스로에게 물어야 한다:
- DDA sampling 한계를 고려했는가?
- missing value를 어떻게 해석했는가?
- 전처리 변동을 모니터링했는가?
- LC drift 가능성을 평가했는가?
- DIA 전환이 필요한 단계인가?
'제약산업' 카테고리의 다른 글
| 대사체 연구에서 Negative Result가 더 중요한 이유 (0) | 2026.03.09 |
|---|---|
| Metabolomics에서 QC sample이 통과해도 결과를 믿기 어려운 이유 (0) | 2026.03.08 |
| Batch effect가 결과 해석을 어떻게 왜곡하는가 (1) | 2026.03.07 |
| Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법 (0) | 2026.03.06 |
| 같은 샘플인데 다른 metabolite profile이 나오는 이유 (0) | 2026.03.05 |
| LC-MS 분석 조직이 규모가 커질수록 반드시 망가지는 지점들 (0) | 2026.03.04 |
| Cancer metabolomics에서 재현성이 특히 어려운 이유 (0) | 2026.03.02 |
| TDM 데이터에서 ‘통계적 유의성’이 임상적으로 무의미해지는 순간 (0) | 2026.03.01 |
- Total
- Today
- Yesterday
- Targeted Metabolomics
- 분석
- 정량분석
- 치료제
- 임상시험
- matrix effect
- Spatial metabolomics
- 약물분석
- 정밀의료
- bioanalysis
- audit
- 대사체 분석
- 신약 개발
- 신약개발
- 데이터
- 시스템
- ich m10
- 디지털헬스케어
- 약물개발
- Multi-omics
- lc-ms/ms
- LC-MS
- metabolomics
- 미래산업
- 머신러닝
- 제약
- AI
- 바이오마커
- 제약산업
- 분석팀
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
