티스토리 뷰

— 우리가 보고 있는 것은 단백질이 아니라, 단백질의 ‘조각’이다
처음 proteomics 데이터를 접하면
자연스럽게 이렇게 생각하게 된다.
“이건 단백질 데이터다”
리스트에는 단백질 이름이 있고,
각각의 abundance 값이 있고,
그 변화가 정리되어 있다.
그래서 해석도 자연스럽게 이어진다.
- 이 단백질이 증가했다
- 이 단백질이 감소했다
이건 너무 당연한 흐름이라
대부분 의심하지 않는다.
하지만 proteomics를 조금 더 깊이 들여다보면
이 전제가 얼마나 위험한지 보이기 시작한다.
우리는 단백질을 직접 측정하지 않는다
LC-MS 기반 proteomics에서
실제로 측정하는 것은 단백질이 아니다.
우리는
- trypsin으로 단백질을 잘라서
- peptide를 만들고
- 그 peptide의 signal을 측정한다
즉,
proteomics는 protein이 아니라 peptide 기반 분석이다
단백질은
이 peptide들을 기반으로
“추론”된 결과다.
하나의 단백질은 하나가 아니다
하나의 단백질은
여러 개의 peptide로 구성된다.
그리고 이 peptide들은
각각 독립적으로 행동한다.
실제 상황
단백질 X에서 나온 peptide들:
- peptide A → 증가
- peptide B → 변화 없음
- peptide C → 감소
이 경우 질문이 생긴다.
“이 단백질은 증가한 걸까, 감소한 걸까?”
답은 간단하지 않다.
peptide는 단백질을 동일하게 대표하지 않는다
이건 가장 중요한 포인트다.
각 peptide는
- 다른 위치에서 유래하고
- 다른 물리적 특성을 가지며
- 다른 방식으로 검출된다
그래서
👉 동일 단백질이라도
peptide별 signal은 완전히 다르게 움직인다
실제 사례 ①: digestion efficiency의 차이
trypsin digestion은
완벽하지 않다.
- 어떤 부위 → 잘 절단
- 어떤 부위 → 거의 안 됨
그래서 특정 peptide는
→ 항상 강하게 보이고
다른 peptide는
→ 거의 보이지 않는다
이걸 그대로 해석하면
→ 특정 단백질이 많은 것처럼 보일 수 있다
실제 사례 ②: post-translational modification (PTM)
단백질은 그대로 존재하지 않는다.
- phosphorylation
- glycosylation
- oxidation
이런 modification이 발생한다.
이 경우
- modified peptide만 변화
- 전체 protein은 변화 없음
하지만 peptide 기반 분석에서는
→ 단백질 abundance 변화로 오해
peptide 하나로 protein을 대표하는 순간
실무에서 가장 흔하게 발생하는 문제다.
상황
- 단백질 X
- peptide 하나만 검출
이 peptide가 증가하면
→ 단백질 증가로 해석
하지만 실제로는
- 해당 peptide만 안정적
- 나머지 peptide는 검출 실패
실제 사례 ③: single peptide bias
한 연구에서
- 특정 단백질이 유의하게 증가
하지만 확인 결과
→ 단 하나의 peptide에 의해 결정됨
다른 peptide는
→ 변화 없음 또는 반대 방향
즉,
단백질이 아니라 peptide 하나의 변화
protein inference의 근본적인 한계
proteomics에서 단백질은
직접 측정된 값이 아니다.
이건
👉 peptide 조합으로 추론된 결과다
문제 상황
하나의 peptide가
- 여러 단백질에 공통으로 존재
이 경우
→ 어떤 단백질이 실제로 존재하는지
불확실해진다
실제 사례 ④: shared peptide 문제
- peptide A → protein X, Y 모두에 존재
검출 결과:
→ peptide A 증가
해석:
→ X 증가? Y 증가? 둘 다?
이건 명확히 알 수 없다.
missing value가 peptide-level에서 더 심각하다
protein level에서는 보이지 않지만
peptide level에서는 더 큰 문제다.
상황
- peptide A → 항상 검출
- peptide B → 대부분 missing
이 경우 protein abundance는
A에 의해 결정된다.
즉,
👉 일부 peptide가 전체 protein을 대표
peptide selection이 결과를 바꾼다
software마다
- peptide selection 기준이 다르다
결과적으로
- 같은 raw data에서도
- 다른 protein abundance 결과
실제 사례 ⑤: software 간 차이
같은 dataset에서
- software A → protein 증가
- software B → 변화 없음
원인:
→ peptide selection 알고리즘 차이
가장 위험한 해석
이 문장이 가장 위험하다.
“이 단백질이 증가했다”
이 말은
👉 peptide 수준의 불확실성을 모두 무시한 표현이다
우리는 왜 이 착각을 하게 되는가
이유는 간단하다.
결과는 항상
“protein 이름”으로 나오기 때문이다.
그래서 우리는 자연스럽게
이걸 단백질 데이터로 받아들인다.
하지만 실제로는
👉 peptide 데이터의 요약일 뿐이다
실무에서 반드시 해야 할 것
1) peptide-level 확인
모든 peptide가 동일 방향인지 확인
2) single peptide 의존 금지
최소 2~3 peptide 필요
3) PTM 여부 확인
특정 peptide만 변화하는지 체크
4) shared peptide 제거 고려
ambiguity 줄이기
5) orthogonal validation
- Western blot
- targeted MS
핵심 정리
Proteomics에서
- peptide → 측정 대상
- protein → 추론 결과
이 둘은 동일하지 않다.
결론
Proteomics는
단백질을 직접 보여주지 않는다.
대신
👉 단백질의 일부를 보여준다
그리고 우리는 그 일부를 보고
전체를 상상한다.
문제는
👉 그 상상이 언제든지 틀릴 수 있다는 점이다
마지막 질문
다음에 proteomics 결과를 볼 때
이 질문을 반드시 해야 한다.
“이건 단백질의 변화인가,
아니면 특정 peptide의 변화인가?”
이 질문 하나가
해석의 정확도를 완전히 바꾼다.
'제약산업' 카테고리의 다른 글
| Normalization 방법별 비교 (실무 가이드 + 추천 전략) (0) | 2026.04.30 |
|---|---|
| Normalization이 결과를 왜곡하는 순간 (0) | 2026.04.29 |
| Missing value가 만들어내는 착각 (0) | 2026.04.28 |
| Proteomics에서 “보이는 것 vs 존재하는 것” (0) | 2026.04.27 |
| 통계적으로 유의하지만 biologically meaningless한 결과 (0) | 2026.04.26 |
| Volcano plot이 진실을 가리는 방식 (0) | 2026.04.25 |
| Differential expression 결과를 그대로 믿으면 안 되는 이유 (0) | 2026.04.24 |
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
- Total
- Today
- Yesterday
- 대사체 분석
- 약물분석
- ich m10
- 신약개발
- 해석
- 분석팀
- bioanalysis
- 미래산업
- audit
- Proteomics
- matrix effect
- lc-ms/ms
- Biomarker
- Targeted Metabolomics
- metabolomics
- 데이터
- 시스템
- biological signal
- 정밀의료
- AI
- 제약산업
- Spatial metabolomics
- 바이오마커
- Multi-omics
- 제약
- 분석
- 임상시험
- 치료제
- LC-MS
- 정량분석
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
