티스토리 뷰
– Raw data 이후, 분석팀의 판단을 구조화하는 데이터 흐름

LC-MS 자동화를 이야기할 때 가장 흔한 오해는 이것이다.
“자동화 = raw data부터 전부 R로 처리”
실제 제약·CRO 환경에서 가장 현실적인 자동화 파이프라인은
👉 vendor software 이후 단계에서 시작한다.
즉, 사람의 판단이 반복되는 지점을 R이 대신 정리해 주는 구조다.
전체 파이프라인 개요 (개념도)
이 구조의 핵심은
“기존 workflow를 바꾸지 않는다”는 점이다.
1단계: 데이터 수집 – Raw data를 건드리지 않는 이유
1-1. 입력 데이터의 현실적인 형태
대부분의 분석팀에서 이미 확보 가능한 데이터는 다음과 같다.
- Sample ID
- Analyte name
- Peak area
- IS peak area
- Area ratio
- RT
- Nominal / Calculated concentration
- QC level
- Pass / Fail
- Batch ID
- Instrument ID
- Analyst
- Analysis date
이 데이터는 이미
✔ vendor software export
✔ LIMS export
형태로 존재한다.
👉 R 파이프라인은 이 데이터를 “소비”하는 쪽이다.
1-2. 왜 raw spectrum부터 시작하지 않는가?
- 규제 리스크 증가
- validation scope 확대
- vendor 결과와 불일치 시 책임 문제
자동화의 목적이
“새로운 정량”이 아니라 “판단의 일관성”이라면
raw data는 오히려 시작점이 아니다.
2단계: 데이터 정합성 검증 (Data sanity check)
이 단계는 자동화에서 가장 중요하지만,
사람이 거의 의식하지 못하는 부분이다.
R이 자동으로 확인하는 것들
- 같은 Sample ID에 analyte 수가 맞는가?
- IS 누락된 샘플은 없는가?
- QC level 이름이 batch마다 바뀌지 않았는가?
- 농도 단위 혼용은 없는가?
- RT가 물리적으로 불가능한 값은 아닌가?
👉 이 단계의 목적은 **“분석 전에 데이터가 이미 깨져 있는 상황”**을 막는 것이다.
이 기능만으로도
- 수작업 검토 시간 감소
- 사소한 실수로 인한 재분석 방지
효과가 매우 크다.
3단계: QC · IS · RT 품질 지표 자동 계산
Vendor software에서도 볼 수 있지만,
R은 ‘비교’에 강하다.
3-1. QC 평가를 재정의한다
기존 QC 평가는 보통 이렇게 끝난다.
- Pass / Fail
- %Bias
- %CV
R 파이프라인에서는 질문이 바뀐다.
- 어느 QC level이 가장 불안정한가?
- 같은 level이라도 batch 간 분포는 어떻게 다른가?
- 실패 직전 QC는 어떤 패턴을 보였는가?
즉, QC를 점(point)이 아니라
👉 분포(distribution)로 본다.
3-2. IS response를 “품질 센서”로 활용
IS는 원래 보정 도구지만,
자동화 파이프라인에서는 시스템 상태 지표가 된다.
- IS response drift
- IS CV 변화
- 특정 analyte만 IS 상관이 깨지는 패턴
이 분석은 vendor software보다
R에서 훨씬 직관적으로 구현된다.
4단계: Batch-to-batch Trend 분석
이 단계부터 R 파이프라인의 진짜 가치가 드러난다.
4-1. 무엇을 트렌드로 보는가?
- Analyte response
- IS response
- RT
- Calibration slope / intercept
- QC bias
시간 축으로 쌓으면,
“아직 문제는 아니지만 방향성이 있는 변화”가 보이기 시작한다.
👉 이것이 preventive quality management의 출발점이다.
4-2. PM·column 교체·method 변경과 연결
R에서는 단순히 날짜가 아니라,
- 장비 PM 시점
- column 교체일
- solvent lot 변경일
을 event marker로 함께 표시할 수 있다.
그 결과,
“PM 이후 signal은 좋아졌지만 RT variability는 오히려 증가했다”
같은 정성적이지만 설득력 있는 해석이 가능해진다.
5단계: Anomaly detection (AI 이전 단계)
여기서 말하는 anomaly는
QC fail이 아니다.
- 기준은 만족
- 하지만 평소 패턴과 다름
R 기반 접근의 특징
- 복잡한 딥러닝 ❌
- 설명 가능한 rule + 통계 기반 ⭕️
예를 들면,
- IS response가 과거 분포의 1% 밖
- RT shift가 특정 analyte에서만 발생
- QC CV 패턴이 특정 analyst에서 반복
👉 “이상함”을 자동으로 flag만 해준다.
판단은 여전히 사람이 한다.
6단계: 자동 리포트 생성 (가장 설득력 있는 산출물)
자동화의 성패는
“결과를 누가 이해하느냐”에 달려 있다.
R 파이프라인의 마지막은 보통 다음 중 하나다.
- Batch summary PDF
- QC trend HTML report
- Method health dashboard
중요한 점
- 코드 ❌
- 그래프 + 해석 중심 ⭕️
- SOP 언어로 설명 가능 ⭕️
Audit에서 가장 강력한 순간은 이런 말이다.
“이 분석은 자동으로 이런 지표를 점검하고,
이상이 있을 경우 이런 기준으로 검토합니다.”
7단계: 이 파이프라인이 조직에 남기는 것
R 기반 LC-MS 자동화 파이프라인은
단순한 효율 개선이 아니다.
조직에는 다음이 남는다.
- 분석 판단 기준의 명문화
- 개인 경험의 시스템화
- 규제 대응 가능한 설명 구조
- AI 도입을 위한 데이터 토대
정리하며
이 파이프라인의 핵심은
“LC-MS 데이터를 새로 만드는 것”이 아니라
“이미 있는 데이터를 다르게 쓰는 것”이다.
- Vendor software는 정량에 강하고
- R 파이프라인은 해석과 연결에 강하다
이 둘이 분리되지 않고 이어질 때,
LC-MS 분석은
👉 실험 중심 기술에서 데이터 기반 시스템으로 진화한다.
'제약산업' 카테고리의 다른 글
| LC-MS/MS에서 ‘좋은 피크’의 정의는 어떻게 만들어지는가 (0) | 2026.02.03 |
|---|---|
| R 기반 자동화 결과를 SOP로 전환하는 방법 (0) | 2026.02.02 |
| R 기반 LC-MS 데이터 자동화 파이프라인 (0) | 2026.02.01 |
| 데이터 자동화 × R 기반 LC-MS 데이터 활용 전략 (0) | 2026.01.30 |
| Regulatory Ready LC-MS/MS 시리즈 (0) | 2026.01.29 |
| AI × LC-MS/MS 융합기술 시리즈 (0) | 2026.01.27 |
| Metabolomics Insight 시리즈 (0) | 2026.01.26 |
| Bioanalysis Deep Dive 시리즈 (0) | 2026.01.25 |
- Total
- Today
- Yesterday
- 머신러닝
- 미래산업
- 분석팀
- 바이오의약품
- 신약개발
- AI
- 약물개발
- Targeted Metabolomics
- 신약 개발
- 임상시험
- 대사체 분석
- Multi-omics
- lc-ms/ms
- 제약산업
- LC-MS
- matrix effect
- 데이터
- 시스템
- bioanalysis
- 디지털헬스케어
- 정밀의료
- 제약
- 바이오마커
- 약물분석
- 정량분석
- 분석
- 팬데믹
- metabolomics
- Spatial metabolomics
- 치료제
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
