p-value 하나로 biology를 자르는 순간 벌어지는 일들Proteomics 데이터를 처음 분석하면 가장 먼저 배우는 것 중 하나가 cutoff다.p-value fold change > 2FDR 논문 대부분도 비슷한 기준을 사용한다. Volcano plot에는 빨간 점과 회색 점이 나뉘어 있고, significant protein list가 pathway analysis로 이어진다. 그래서 자연스럽게 이런 생각을 하게 된다.“통계 기준을 통과한 protein은 진짜 biology겠지.”실제로 statistical cutoff는 필요하다. Proteomics 데이터는 noise가 많고, thousands of proteins를 동시에 비교하기 때문에 우연한 변화도 계속 발생한다. 어떤 기준선은 반드시..
Proteomics에서 peptide가 많아질수록 오히려 biology가 흐려지는 순간Proteomics 데이터를 처음 접하면 많은 사람들이 이렇게 생각한다.“Peptide를 많이 검출할수록 protein identification이 더 정확해지겠지.”실제로도 어느 정도는 맞다. Protein coverage가 높아지면 identification confidence가 증가하고, quantification reproducibility도 좋아질 가능성이 높다. 그래서 proteomics에서는 더 많은 peptide를 얻기 위해 sample prep을 최적화하고, LC gradient를 늘리고, fractionation까지 수행한다.문제는 어느 순간부터 peptide 수 증가가 단순한 정보 증가로 이어지지 않..
Proteomics에서 우리가 실제로 보는 것은 단백질일까, 아니면 peptide 패턴일까Proteomics를 처음 배우는 사람들은 대개 이렇게 생각한다.Mass spectrometry로 단백질을 측정하고, 어떤 단백질이 증가했는지 확인한 뒤 biology를 해석한다고.논문도 대부분 그렇게 보인다. Volcano plot에는 protein name이 적혀 있고, pathway enrichment 역시 protein list 기반으로 진행된다. 그래서 자연스럽게 “이 데이터는 단백질 abundance를 직접 보여주는구나”라고 받아들이게 된다.하지만 raw data를 오래 보다 보면 어느 순간 이상한 경험을 하게 된다.같은 protein인데 peptide마다 abundance 방향이 다르다. 어떤 pepti..
Proteomics에서 존재하지 않던 biology가 만들어지는 순간Proteomics 데이터를 분석하다 보면 어느 순간 반드시 마주치는 문제가 있다. Missing value다.어떤 protein은 control에서는 잘 보이는데 disease에서는 비어 있고, 어떤 peptide는 replicate 중 절반만 존재하며, low abundance signaling protein은 거의 랜덤하게 사라지는 것처럼 보인다. 처음 raw matrix를 보면 데이터가 구멍 난 스펀지처럼 느껴질 정도다.그리고 대부분의 분석은 여기서부터 시작된다.“빈칸을 어떻게 채울까?”많은 사람들은 imputation을 단순한 preprocessing 정도로 생각한다. 통계를 위해 비어 있는 칸을 적절한 값으로 채우는 과정이라고..
Missing value 처리 방법이 결과를 바꾸는 이유Proteomics에서 가장 위험한 숫자는 “0”이 아니라 “비어 있는 칸”이다Proteomics 데이터를 처음 분석할 때 많은 사람들이 가장 당황하는 부분 중 하나가 missing value다. 어떤 protein은 control에서는 잘 보이는데 disease sample에서는 전부 비어 있고, 어떤 peptide는 replicate 중 절반만 존재하며, low abundance protein은 거의 랜덤하게 사라지는 것처럼 보인다.처음에는 단순 측정 실패처럼 느껴진다. LC-MS가 완벽하지 않으니 일부 peptide는 못 잡을 수도 있다고 생각한다. 그래서 자연스럽게 다음 단계로 넘어간다.“비어 있는 값을 어떻게 채울까?”그리고 이 순간부터 p..
Total ion vs Median vs Quantile vs VSN… Proteomics에서 무엇을 “같게 만든다”는 의미일까Proteomics 데이터를 처음 분석할 때 많은 사람들이 normalization을 거의 자동 단계처럼 생각한다. Raw intensity를 software에 넣으면 normalization이 수행되고, 이후 abundance table과 volcano plot이 생성된다. 데이터가 훨씬 깔끔해지고 replicate 간 variation도 줄어든다. 그래서 자연스럽게 이런 생각을 하게 된다.“Normalization을 하면 technical noise가 제거되고 biology만 남는 것 아닐까?”실제로 normalization은 proteomics에서 거의 필수 과정이다. LC..
TMT/iTRAQ에서 실제 biological difference가 점점 작아져 보이는 이유처음 TMT나 iTRAQ 데이터를 접하면 대부분 비슷한 인상을 받는다. 데이터가 굉장히 깔끔해 보인다는 점이다. Missing value도 적고, replicate consistency도 높으며, reporter ion 기반 quantification 결과가 정돈된 숫자로 떨어진다. Heatmap은 선명하고 PCA clustering도 안정적으로 나타난다.그리고 어느 순간부터 연구자는 이런 생각을 하게 된다.“이 정도면 실제 biology를 꽤 정확하게 반영하는 것 아닐까?”실제로 isobaric labeling 기반 proteomics는 label-free quantification보다 훨씬 정교한 것처럼 보인다..
Isobaric labeling proteomics에서 “정확한 정량”이라는 믿음이 흔들리는 순간Proteomics에서 iTRAQ와 TMT가 등장했을 때 많은 연구자들은 거의 혁명처럼 받아들였다. 서로 다른 sample을 하나의 mixture로 합친 뒤 동시에 LC-MS/MS 분석을 수행할 수 있고, label-free quantification에서 반복적으로 문제가 되었던 run-to-run variability도 크게 줄일 수 있었기 때문이다.특히 multiplexing capability는 enormous advantage였다. 6-plex, 10-plex, 16-plex를 넘어 최근에는 더 높은 plexing 전략까지 가능해지면서 clinical cohort와 large-scale comparat..
- Total
- Today
- Yesterday
- 치료제
- Proteomics
- 신약개발
- lc-ms/ms
- Missing Value
- 분석팀
- 제약산업
- 바이오마커
- 제약
- metabolomics
- 시스템
- 분석
- Spatial metabolomics
- 미래산업
- Biomarker
- LC-MS
- AI
- audit
- 약물분석
- Targeted Metabolomics
- 대사체 분석
- bioanalysis
- biological signal
- 해석
- matrix effect
- 정밀의료
- 정량분석
- 데이터
- 임상시험
- Multi-omics
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
