— 우리는 같은 샘플을 분석하는 걸까, 아니면 다른 샘플을 만들어내고 있는 걸까처음에는 단순한 의도로 시작한다.“gradient를 조금만 바꿔보자”60분 → 90분shallow → steepstarting %B 약간 조정이건 흔한 최적화 과정이다.오히려 당연한 단계다.그런데 결과를 보고 나면생각보다 당황하게 된다.검출되는 단백질 수가 달라지고peptide 패턴이 바뀌고differential expression 결과까지 달라진다이 순간 질문이 생긴다.“같은 샘플인데 왜 결과가 바뀌는 걸까?”LC gradient는 단순한 분리 조건이 아니다많은 사람들이 LC gradient를이렇게 생각한다.“분리를 조금 더 잘하기 위한 설정”하지만 실제로는 훨씬 더 큰 역할을 한다.LC gradient는어떤 peptide가..
— 우리가 보고 있는 것은 단백질이 아니라, 단백질의 ‘조각’이다처음 proteomics 데이터를 접하면자연스럽게 이렇게 생각하게 된다.“이건 단백질 데이터다”리스트에는 단백질 이름이 있고,각각의 abundance 값이 있고,그 변화가 정리되어 있다.그래서 해석도 자연스럽게 이어진다.이 단백질이 증가했다이 단백질이 감소했다이건 너무 당연한 흐름이라대부분 의심하지 않는다.하지만 proteomics를 조금 더 깊이 들여다보면이 전제가 얼마나 위험한지 보이기 시작한다.우리는 단백질을 직접 측정하지 않는다LC-MS 기반 proteomics에서실제로 측정하는 것은 단백질이 아니다.우리는trypsin으로 단백질을 잘라서peptide를 만들고그 peptide의 signal을 측정한다즉,proteomics는 prote..
— 어떤 방법을 쓰느냐에 따라 결과 자체가 바뀌는 이유데이터 분석에서 normalization은항상 “필수 단계”로 취급된다.그래서 대부분의 분석 pipeline에서는아무 고민 없이 들어간다.log transformscalingnormalization마치 정해진 순서처럼.하지만 실제로 데이터를 몇 번 다뤄보면이상한 경험을 하게 된다.같은 데이터인데어떤 normalization을 쓰느냐에 따라→ 결과가 완전히 달라진다어떤 경우에는→ 있던 차이가 사라지고어떤 경우에는→ 없던 차이가 생긴다이 순간부터 질문이 생긴다.“대체 어떤 normalization이 맞는 걸까?”먼저 이해해야 할 것: normalization은 “정답”이 없다많은 사람들이 오해하는 부분이다.normalization은더 정확한 값을 만드는 ..
데이터를 ‘정리’하는 과정에서 진짜 차이를 지워버릴 때데이터를 처음 받아보면가장 먼저 드는 생각은 이것이다.“값이 너무 들쭉날쭉하다”샘플 간 intensity가 다르고,run마다 scale이 다르고,어떤 샘플은 전체적으로 높고어떤 샘플은 낮다.그래서 우리는 자연스럽게다음 단계를 떠올린다.Normalization전체를 맞추고비교 가능하게 만들고noise를 줄인다이건 너무 당연한 과정이다.그래서 오히려의심하지 않는다.하지만 문제는바로 여기서 시작된다.normalization은 ‘보정’이 아니라 ‘가정’이다우리는 보통 normalization을기술적인 보정이라고 생각한다.하지만 실제로는 그렇지 않다.Normalization은 항상하나의 전제를 포함한다.전체 signal은 비슷하다대부분 feature는 변하지 ..
— 보이지 않는 데이터가 결과를 가장 크게 바꾸는 순간데이터를 보다 보면가끔 이런 순간이 온다.“왜 이 값은 비어 있을까?”처음에는 단순하게 생각한다.측정이 안 됐나 보다값이 없나 보다그래서 자연스럽게 이어진다.missing → 0missing → 무시이 판단은 빠르고 편하다.하지만 이 단순한 선택 하나가전체 결과를 완전히 바꿔버리는 경우가 있다.그리고 더 문제는그 변화가 너무 “그럴듯하게” 보인다는 점이다.우리는 missing을 너무 쉽게 해석한다omics 데이터에서 missing value는예외적인 상황이 아니다.오히려 흔하다.proteomics, metabolomics 모두에서missing value는 기본적으로 존재한다.문제는 이걸 어떻게 이해하느냐다.많은 경우 우리는 이렇게 생각한다.값이 없다 ..
— 우리는 단백질을 보고 있는가, 아니면 시스템이 보여주는 일부를 해석하고 있는가처음 proteomics 데이터를 접하면이렇게 생각하기 쉽다.“이건 단백질의 목록이다”검출된 단백질 리스트,각각의 abundance 값,그리고 그 변화.모든 것이 명확해 보인다.그래서 자연스럽게 이렇게 이어진다.검출되었다 → 존재한다검출되지 않았다 → 없다이건 너무 직관적이라의심하지 않게 된다.하지만 이 전제는proteomics에서 가장 위험한 착각 중 하나다.우리는 ‘존재’를 측정하지 않는다proteomics에서 우리가 실제로 측정하는 것은단백질 그 자체가 아니다.우리는peptide fragmention signaldetector response를 측정한다.그리고 그 신호를 기반으로단백질의 존재를 “추론”한다.즉,prote..
— p-value가 낮아지는 순간, 해석은 오히려 위험해진다어느 순간부터 우리는데이터를 이렇게 읽기 시작한다.“p-value가 0.05보다 작다 → 의미 있다”이건 너무 익숙해서이제는 거의 반사처럼 이어지는 사고다.그래서 결과를 정리할 때도자연스럽게 이렇게 쓴다.“이 단백질은 유의하게 증가하였다”그리고 그 다음 문장은거의 자동으로 따라온다.“따라서 이 단백질은 중요한 역할을 한다”하지만 이 두 문장 사이에는생각보다 큰 간극이 있다.그리고 대부분의 오류는바로 이 간극에서 시작된다.숫자는 명확하지만, 의미는 그렇지 않다통계적으로 유의하다는 것은수학적으로는 매우 명확한 개념이다.하지만 biological 의미는그렇지 않다.예를 들어보자.fold change: 1.05p-value: 0.0001이 데이터는통계적..
— 가장 직관적인 그래프가 가장 많은 것을 숨길 때처음 Volcano plot을 접했을 때의 느낌을 아직도 기억한다.데이터가 이렇게까지 명확하게 보일 수 있다는 사실이오히려 놀라웠다.좌우로 나뉘어진 점들,위로 올라갈수록 강해지는 신뢰도,그리고 그 위에 표시된 몇 개의 단백질 이름.그건 마치 데이터가 스스로 말하고 있는 것처럼 보였다.“이게 답이야.”그래서 우리는 자연스럽게 그 그림을 믿는다.의심 없이, 망설임 없이.하지만 시간이 지나고,비슷한 실험을 반복하고,결과가 재현되지 않는 순간을 몇 번 겪고 나면이 질문이 떠오른다.“이 그래프는 정말 진실을 보여주는 걸까?”1. Volcano plot은 ‘단순한 시각화’가 아니다겉으로 보면 Volcano plot은 단순하다.x축: log2 fold changey축..
- Total
- Today
- Yesterday
- 정밀의료
- 분석
- 분석팀
- 대사체 분석
- 바이오마커
- 해석
- audit
- Biomarker
- 신약개발
- lc-ms/ms
- 제약산업
- matrix effect
- 약물분석
- LC-MS
- 시스템
- 정량분석
- 임상시험
- ich m10
- metabolomics
- Proteomics
- 미래산업
- Multi-omics
- 치료제
- 데이터
- biological signal
- Spatial metabolomics
- AI
- 제약
- bioanalysis
- Targeted Metabolomics
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
