— 보이지 않는 데이터가 결과를 가장 크게 바꾸는 순간데이터를 보다 보면가끔 이런 순간이 온다.“왜 이 값은 비어 있을까?”처음에는 단순하게 생각한다.측정이 안 됐나 보다값이 없나 보다그래서 자연스럽게 이어진다.missing → 0missing → 무시이 판단은 빠르고 편하다.하지만 이 단순한 선택 하나가전체 결과를 완전히 바꿔버리는 경우가 있다.그리고 더 문제는그 변화가 너무 “그럴듯하게” 보인다는 점이다.우리는 missing을 너무 쉽게 해석한다omics 데이터에서 missing value는예외적인 상황이 아니다.오히려 흔하다.proteomics, metabolomics 모두에서missing value는 기본적으로 존재한다.문제는 이걸 어떻게 이해하느냐다.많은 경우 우리는 이렇게 생각한다.값이 없다 ..
— 우리는 단백질을 보고 있는가, 아니면 시스템이 보여주는 일부를 해석하고 있는가처음 proteomics 데이터를 접하면이렇게 생각하기 쉽다.“이건 단백질의 목록이다”검출된 단백질 리스트,각각의 abundance 값,그리고 그 변화.모든 것이 명확해 보인다.그래서 자연스럽게 이렇게 이어진다.검출되었다 → 존재한다검출되지 않았다 → 없다이건 너무 직관적이라의심하지 않게 된다.하지만 이 전제는proteomics에서 가장 위험한 착각 중 하나다.우리는 ‘존재’를 측정하지 않는다proteomics에서 우리가 실제로 측정하는 것은단백질 그 자체가 아니다.우리는peptide fragmention signaldetector response를 측정한다.그리고 그 신호를 기반으로단백질의 존재를 “추론”한다.즉,prote..
— p-value가 낮아지는 순간, 해석은 오히려 위험해진다어느 순간부터 우리는데이터를 이렇게 읽기 시작한다.“p-value가 0.05보다 작다 → 의미 있다”이건 너무 익숙해서이제는 거의 반사처럼 이어지는 사고다.그래서 결과를 정리할 때도자연스럽게 이렇게 쓴다.“이 단백질은 유의하게 증가하였다”그리고 그 다음 문장은거의 자동으로 따라온다.“따라서 이 단백질은 중요한 역할을 한다”하지만 이 두 문장 사이에는생각보다 큰 간극이 있다.그리고 대부분의 오류는바로 이 간극에서 시작된다.숫자는 명확하지만, 의미는 그렇지 않다통계적으로 유의하다는 것은수학적으로는 매우 명확한 개념이다.하지만 biological 의미는그렇지 않다.예를 들어보자.fold change: 1.05p-value: 0.0001이 데이터는통계적..
— 가장 직관적인 그래프가 가장 많은 것을 숨길 때처음 Volcano plot을 접했을 때의 느낌을 아직도 기억한다.데이터가 이렇게까지 명확하게 보일 수 있다는 사실이오히려 놀라웠다.좌우로 나뉘어진 점들,위로 올라갈수록 강해지는 신뢰도,그리고 그 위에 표시된 몇 개의 단백질 이름.그건 마치 데이터가 스스로 말하고 있는 것처럼 보였다.“이게 답이야.”그래서 우리는 자연스럽게 그 그림을 믿는다.의심 없이, 망설임 없이.하지만 시간이 지나고,비슷한 실험을 반복하고,결과가 재현되지 않는 순간을 몇 번 겪고 나면이 질문이 떠오른다.“이 그래프는 정말 진실을 보여주는 걸까?”1. Volcano plot은 ‘단순한 시각화’가 아니다겉으로 보면 Volcano plot은 단순하다.x축: log2 fold changey축..
— 통계적으로 유의한 결과가 생물학적으로 틀릴 수 있는 구조논문을 읽다 보면 이런 문장을 자주 보게 된다.“XXX protein이 유의하게 증가하였다 (p 그리고 자연스럽게 이어진다.“따라서 이 단백질은 해당 질환에서 중요한 역할을 한다”이 흐름은 너무 자연스럽다.그래서 대부분의 사람은 의심하지 않는다.하지만 proteomics를 실제로 다뤄본 사람이라면이 문장을 조금 다르게 읽는다.“이 결과, 정말 그대로 믿어도 될까?”1. differential expression은 ‘사실’이 아니라 ‘결과’다Differential expression(DE)은실제 biological 변화 자체가 아니다.이건 다음 과정을 거쳐 만들어진다.샘플 준비단백질 추출digestionLC-MS 측정데이터 처리통계 분석그리고 마지..
우리는 단백질의 양을 측정하고 있는가, 아니면 신호의 결과를 해석하고 있는가proteomics 데이터를 처음 접했을 때,대부분의 사람들은 같은 방식으로 이해한다.“이 값은 단백질의 양이다.”그래서 자연스럽게 이렇게 이어진다.값이 높다 → 단백질이 많다값이 낮다 → 단백질이 적다이 논리는 직관적이고,그래서 더 위험하다.왜냐하면 이 전제는절반만 맞고, 절반은 틀리기 때문이다.그리고 이 차이를 이해하지 못하는 순간,proteomics 해석은 완전히 다른 방향으로 흘러가기 시작한다.1. 우리가 보고 있는 ‘abundance’의 정체proteomics에서 말하는 abundance는실제로 무엇일까?많은 경우 이것은 다음에서 나온다.peptide intensityspectral countreporter ion sig..
— 우리는 단백질을 보고 있는가, 아니면 데이터가 만든 환상을 해석하고 있는가proteomics 데이터를 처음 접했을 때의 기억은대부분 비슷하다.수천 개의 단백질 리스트,정교하게 정리된 정량값,그리고 통계적으로 정리된 결과.모든 것이 완성된 것처럼 보인다.마치 우리가생물학적 시스템을 직접 들여다보고 있는 것처럼 느껴진다.그리고 자연스럽게이런 생각에 도달한다.“이 데이터는 실제 단백질 상태를 반영한다.”하지만 이 문장은proteomics에서 가장 위험한 착각이다.1. proteomics는 ‘전체’를 보여주지 않는다많은 사람들이 proteomics를전체 단백질 분석이라고 생각한다.하지만 실제로는 전혀 다르다.우리가 보는 것은 다음 조건을 만족한 것들뿐이다.추출된 단백질digestion에 성공한 peptide..
— 환자의 상태가 아니라, 샘플의 변화가 결과를 만들고 있을 수도 있다임상 연구에서 metabolomics를 적용하면항상 기대가 크다.질병 특이적 biomarker 발견치료 반응 예측환자 stratification데이터는 화려하다.통계적으로 유의미한 결과도 나온다.그런데 어느 순간이상한 일이 발생한다.다른 병원에서 같은 연구를 했는데결과가 재현되지 않는다.또는같은 cohort에서도batch에 따라 결과가 달라진다.이때 대부분 이렇게 생각한다.환자군 차이인가분석 장비 차이인가하지만 실제 원인은훨씬 더 단순한 곳에 있는 경우가 많다.샘플이 이미 변해버렸기 때문이다.1. 임상 샘플은 ‘통제되지 않는 변수의 집합’이다실험실 샘플과 달리임상 샘플은 완전히 통제할 수 없다.채혈 시간 다름공복 여부 다름약물 복용 상..
- Total
- Today
- Yesterday
- biological signal
- Biomarker
- 바이오마커
- metabolomics
- 임상시험
- bioanalysis
- 약물분석
- 대사체 분석
- Spatial metabolomics
- Proteomics
- AI
- 제약
- 분석
- 데이터
- LC-MS
- 정밀의료
- 치료제
- 제약산업
- 해석
- 미래산업
- Multi-omics
- 정량분석
- ich m10
- lc-ms/ms
- matrix effect
- 시스템
- 신약개발
- Targeted Metabolomics
- audit
- 분석팀
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
