티스토리 뷰

— 우리는 단백질을 보고 있는가, 아니면 시스템이 보여주는 일부를 해석하고 있는가
처음 proteomics 데이터를 접하면
이렇게 생각하기 쉽다.
“이건 단백질의 목록이다”
검출된 단백질 리스트,
각각의 abundance 값,
그리고 그 변화.
모든 것이 명확해 보인다.
그래서 자연스럽게 이렇게 이어진다.
- 검출되었다 → 존재한다
- 검출되지 않았다 → 없다
이건 너무 직관적이라
의심하지 않게 된다.
하지만 이 전제는
proteomics에서 가장 위험한 착각 중 하나다.
우리는 ‘존재’를 측정하지 않는다
proteomics에서 우리가 실제로 측정하는 것은
단백질 그 자체가 아니다.
우리는
- peptide fragment
- ion signal
- detector response
를 측정한다.
그리고 그 신호를 기반으로
단백질의 존재를 “추론”한다.
즉,
proteomics는 관찰이 아니라 해석에 가깝다
존재하지만 보이지 않는 것들
가장 먼저 이해해야 할 것은
“존재하지만 보이지 않는 단백질”이 매우 많다는 점이다.
1) dynamic range의 한계
생체 시스템에서 단백질 농도는
수십만 배 이상 차이가 난다.
하지만 LC-MS는
이 전체 범위를 완전히 커버하지 못한다.
그래서
- high abundance protein → 쉽게 검출
- low abundance protein → 사라짐
즉,
보이지 않는다고 해서 없는 것이 아니다
실제 상황: plasma proteomics
혈장 분석에서
- albumin, immunoglobulin → 항상 검출
- cytokine → 거의 보이지 않음
하지만 cytokine이 없어서가 아니라
너무 낮아서 보이지 않는 것이다.
보이지만 실제와 다른 것들
문제는 반대로
“보이지만 실제를 왜곡하는 경우”도 존재한다.
2) ionization efficiency 차이
모든 peptide는 동일하게 이온화되지 않는다.
- 어떤 peptide → 강한 신호
- 어떤 peptide → 거의 검출 안 됨
그래서 실제 농도와 관계없이
signal intensity는 달라진다.
실제 사례
동일 농도의 peptide A와 B
- A → 높은 signal
- B → 낮은 signal
결과적으로
→ A가 더 많은 것처럼 보임
sample preparation이 존재를 바꾼다
proteomics에서 “보이는 것”은
실험 시작 전에 이미 결정되는 경우가 많다.
3) extraction bias
단백질 추출 과정에서
- soluble protein → 잘 추출
- membrane protein → 손실
결과:
→ membrane protein은 존재하지만
데이터에서는 사라짐
실제 사례
일반 lysis buffer 사용 시
→ membrane receptor 거의 검출 안 됨
하지만 다른 buffer 사용 시
→ 동일 샘플에서 다수 검출
digestion 단계에서 사라지는 단백질
trypsin digestion은
proteomics의 핵심이다.
하지만 완벽하지 않다.
4) digestion inefficiency
- 특정 단백질 → cleavage 어려움
- PTM 존재 → digestion 방해
결과:
→ peptide 생성 안 됨
→ 단백질 “존재하지 않는 것처럼” 보임
LC-MS 단계에서 발생하는 선택
LC-MS는
모든 것을 측정하지 않는다.
특히 DDA 방식에서는
더욱 그렇다.
5) stochastic sampling
DDA에서는
- 일부 peptide만 선택
- run마다 선택 달라짐
그래서
- 같은 샘플인데
- 다른 protein list가 나올 수 있다
실제 상황
replicate 3개 분석 시
- 공통 단백질 일부
- 나머지는 run마다 다름
즉,
존재는 동일하지만
보이는 것은 다르다
ion suppression: 존재를 가리는 가장 조용한 메커니즘
LC-MS에서 항상 존재하는 현상이다.
- 강한 신호 → 약한 신호 억제
- co-elution → 경쟁
결과:
→ 특정 peptide 검출 실패
실제 사례
복잡한 샘플에서
- low abundance peptide
→ high abundance peptide에 의해 억제
→ 존재하지만 보이지 않음
데이터 처리 단계에서 ‘존재’가 재구성된다
raw data는
이미 여러 선택을 거친 결과다.
그리고 데이터 처리 과정에서
한 번 더 재구성된다.
6) identification threshold
- score cutoff 설정
- FDR 적용
이 기준에 따라
→ 존재하는 peptide가 제외될 수 있다
7) protein inference 문제
하나의 peptide가
여러 단백질에 속할 수 있다.
이 경우
→ 잘못된 단백질이 “존재하는 것처럼” 보일 수 있다
missing value의 진짜 의미
proteomics에서 missing value는 흔하다.
하지만 이걸 단순히 “없음”으로 해석하면
문제가 생긴다.
실제 의미
missing value는
- detection 실패
- stochastic sampling
- low abundance
을 의미한다.
즉,
absence ≠ non-existence
가장 위험한 해석
데이터를 이렇게 읽는 순간이다.
- 검출됨 → 존재
- 미검출 → 없음
이 단순한 논리가
가장 많은 오류를 만든다.
실제 사례: biomarker 발굴 실패
한 연구에서
- 특정 단백질이 disease에서만 검출
→ biomarker 후보로 제시
하지만 후속 연구에서
- control에서도 존재
- 단지 detection 실패였음
우리는 왜 ‘보이는 것’을 믿게 되는가
이유는 단순하다.
데이터는
“확실해 보이는 형태”로 제공되기 때문이다.
- 숫자
- 그래프
- 리스트
이 모든 것이
객관적으로 느껴진다.
하지만 그 안에는
- 선택
- 필터링
- 해석
이 이미 들어가 있다.
결국, proteomics는 ‘부분 관찰’이다
proteomics 데이터는
전체를 보여주지 않는다.
이건
👉 “보이는 단면”이다
그리고 그 단면은
- 기술적 한계
- 분석 조건
- 데이터 처리
에 의해 결정된다.
실무에서의 접근 방식
1) 검출되지 않았다고 결론 내리지 않기
absence = absence of detection
2) multiple method 활용
- DDA + DIA
- label-free + targeted
3) sample prep 다양화
추출 조건에 따른 변화 확인
4) orthogonal validation
- Western blot
- ELISA
5) 해석을 보수적으로
확신보다 가능성 중심
핵심 정리
Proteomics에서
- 보이는 것 → 검출된 신호
- 존재하는 것 → 실제 biological 상태
이 둘은 다르다.
그리고 이 차이는
- 기술
- 방법
- 해석
에 의해 만들어진다.
결론
Proteomics는 강력한 도구다.
하지만 이 도구는
세상을 있는 그대로 보여주지 않는다.
대신
볼 수 있는 만큼만 보여준다
그래서 더 중요한 것은
데이터를 많이 보는 것이 아니라
👉 보이지 않는 것을 상상하는 능력이다
마지막 질문
다음에 proteomics 데이터를 보게 된다면
이 질문을 먼저 떠올려야 한다.
“이건 존재해서 보이는 걸까,
아니면 보이는 것만 존재하는 것처럼 보이는 걸까?”
이 질문 하나가
해석의 깊이를 완전히 바꾼다.
'제약산업' 카테고리의 다른 글
| 통계적으로 유의하지만 biologically meaningless한 결과 (0) | 2026.04.26 |
|---|---|
| Volcano plot이 진실을 가리는 방식 (0) | 2026.04.25 |
| Differential expression 결과를 그대로 믿으면 안 되는 이유 (0) | 2026.04.24 |
| Protein abundance는 실제 농도를 반영할까 (0) | 2026.04.23 |
| Proteomics에서 가장 위험한 착각 (0) | 2026.04.22 |
| 대사체 안정성 문제가 임상 연구에서 특히 중요한 이유 (0) | 2026.04.21 |
| 내부 표준 선택이 metabolomics 정량 신뢰도에 미치는 영향 (0) | 2026.04.20 |
| 전처리 방법 선택이 생물학적 결론을 바꾸는 이유 (0) | 2026.04.19 |
- Total
- Today
- Yesterday
- 해석
- 대사체 분석
- Proteomics
- 임상시험
- 약물분석
- 신약개발
- audit
- ich m10
- 데이터
- 바이오마커
- Multi-omics
- 치료제
- lc-ms/ms
- 분석
- AI
- Targeted Metabolomics
- Spatial metabolomics
- bioanalysis
- 제약산업
- Biomarker
- 시스템
- 제약
- LC-MS
- matrix effect
- biological signal
- 분석팀
- 정량분석
- 정밀의료
- metabolomics
- 미래산업
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
