Shotgun Proteomics에서 재현성이 무너지는 진짜 이유

티스토리 뷰

제약산업

Shotgun Proteomics에서 재현성이 무너지는 진짜 이유

pharma_info 2026. 3. 10. 20:40

728x90

1. Shotgun proteomics의 기본 구조: 재현성에 불리한 설계

Shotgun proteomics는 일반적으로 다음 workflow를 따른다:

단백질 추출
효소 소화 (trypsin digestion)
LC-MS/MS 분석 (DDA)
peptide identification
protein inference
정량 분석

이 과정의 핵심 문제는 데이터 획득 방식(DDA) 에 있다.

2. 근본 원인 1: DDA의 확률적(stochastic) 샘플링

DDA(Data-Dependent Acquisition)의 작동 방식

MS1에서 강한 precursor ion 선택
상위 N개 이온만 MS/MS 수행

즉, 기기는 매 스캔마다 “가장 강한 신호”만 선택한다.

왜 이것이 재현성을 깨는가

같은 샘플이라도:

미세한 noise 차이
이온화 효율 변동
co-eluting peptide 경쟁

→ 선택되는 precursor가 달라짐
→ MS/MS 스펙트럼 달라짐
→ 검출 단백질 목록 달라짐

👉 결과: 같은 샘플인데 다른 단백질이 검출됨

3. Missing value의 구조적 발생

Shotgun proteomics 데이터에서 흔히 보이는 현상:

replicate 간 일부 단백질이 사라짐
low abundance 단백질에서 특히 심함

원인

MS/MS가 수행되지 않음
identification 실패
신호가 threshold 미만

👉 이것은 데이터 결손이 아니라 샘플링 실패

4. 근본 원인 2: Sample preparation variability

Proteomics는 metabolomics보다 전처리 단계가 훨씬 복잡하다.

주요 변동 요인

✔ 단백질 추출 효율

lysis buffer 조성
조직 파쇄 효율
세포막 파괴 정도

✔ 효소 소화 변동성

trypsin activity
digestion 시간
온도 및 pH

✔ peptide 손실

desalting 과정
튜브 표면 흡착
low abundance peptide 손실

👉 전처리 변동은 재현성의 숨은 주요 원인

5. 근본 원인 3: Protein inference 문제

Shotgun proteomics는 peptide를 통해 단백질을 추론한다.

문제

shared peptide 존재
isoform 구분 어려움
homologous protein 혼동

결과

다른 단백질로 매핑
단백질 정량 값 변동
replicate 간 불일치

👉 재현성 문제는 identification 단계에서도 발생한다.

6. 근본 원인 4: LC separation의 미세 변동

LC는 proteomics 재현성의 핵심이다.

영향 요인

column aging
gradient 정확도
temperature fluctuation
dead volume 변화

결과

peptide elution time 변화
co-elution 패턴 변화
precursor selection 변화

👉 LC drift → DDA sampling 변화 → 재현성 붕괴

7. 근본 원인 5: Dynamic range 문제

Proteome의 dynamic range는 10⁶ 이상이다.

결과

high abundance peptide가 MS 시간을 독점
low abundance peptide는 MS/MS 기회 없음

👉 replicate마다 검출되는 단백질 집합이 달라짐

8. Shotgun proteomics에서 재현성이 특히 낮아지는 상황

✔ low abundance 단백질 연구

→ sampling 확률 낮음

✔ 복잡한 매트릭스 (plasma 등)

→ dynamic range 극단적

✔ 소량 샘플

→ stochastic effect 증가

✔ 긴 분석 시간 (multi-day)

→ LC drift 누적

9. 재현성 문제의 실제 데이터 패턴

다음 패턴이 보이면 구조적 문제일 가능성이 높다.

replicate 간 단백질 overlap 낮음
missing value가 abundance 의존적
PCA에서 replicate 분산 큼
peptide level variability > protein level

10. 왜 metabolomics보다 proteomics가 더 어려운가

항목	Metabolomics	Proteomics
전처리	단순	매우 복잡
동적 범위	10³–10⁴	10⁶ 이상
동정 난이도	상대적으로 낮음	높음
데이터 결손	적음	매우 흔함
샘플링 방식	전체 스캔 가능	선택적 (DDA)

👉 구조적으로 proteomics가 재현성에 불리하다.

11. 해결 전략: 기술적 접근

✔ DIA(Data-Independent Acquisition)

모든 precursor fragmentation
missing value 감소
정량 재현성 향상

👉 최근 표준으로 이동 중

✔ Sample prep 표준화

automated digestion
QC peptide monitoring
digestion efficiency control

✔ LC 안정성 관리

column usage log
retention time calibration
system suitability test

12. 데이터 분석 단계에서의 대응 전략

✔ missing value 처리 전략

MNAR vs MAR 구분
무분별한 imputation 금지

✔ peptide-level 분석 병행

protein inference 오류 탐지

✔ QC 기반 drift 모니터링

13. 핵심 메시지

Shotgun proteomics의 재현성 문제는
연구자의 실수가 아니라,
DDA 기반 데이터 획득 구조에서 비롯된 필연적 한계다.

14. 기억해야 할 한 문장

“같은 샘플에서 다른 단백질이 보이는 것은 오류가 아니라, Shotgun proteomics의 본질이다.”

15. 실무자를 위한 점검 질문

재현성 문제를 발견했을 때 스스로에게 물어야 한다:

DDA sampling 한계를 고려했는가?
missing value를 어떻게 해석했는가?
전처리 변동을 모니터링했는가?
LC drift 가능성을 평가했는가?
DIA 전환이 필요한 단계인가?

728x90

'제약산업' 카테고리의 다른 글

Batch effect 심화_ Proteomics 데이터에서 보이지 않는 왜곡의 구조 (0)	2026.03.14
Proteomics에서 Missing Value를 어떻게 해석해야 하는가 (1)	2026.03.13
Proteomics 정량 전략 비교: LFQ vs TMT (0)	2026.03.12
DIA(Data-Independent Acquisition)가 Proteomics 표준이 되는 이유 (0)	2026.03.11
대사체 연구에서 Negative Result가 더 중요한 이유 (0)	2026.03.09
Metabolomics에서 QC sample이 통과해도 결과를 믿기 어려운 이유 (0)	2026.03.08
Batch effect가 결과 해석을 어떻게 왜곡하는가 (1)	2026.03.07
Metabolomics 데이터에서 ‘생물학적 변이’와 ‘분석 변이’를 구분하는 방법 (0)	2026.03.06

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리 뷰