티스토리 뷰

728x90

– Raw data 이후, 분석팀의 판단을 구조화하는 데이터 흐름

 

R 기반 LC-MS 데이터 자동화 파이프라인 예시
R 기반 LC-MS 데이터 자동화 파이프라인 예시

LC-MS 자동화를 이야기할 때 가장 흔한 오해는 이것이다.

“자동화 = raw data부터 전부 R로 처리”

실제 제약·CRO 환경에서 가장 현실적인 자동화 파이프라인
👉 vendor software 이후 단계에서 시작한다.
즉, 사람의 판단이 반복되는 지점을 R이 대신 정리해 주는 구조다.


전체 파이프라인 개요 (개념도)

 
[LC-MS Instrument]
[Vendor Software] (Integration / Calibration / QC 평가)
Exported Data] (CSV / Excel / LIMS dump)
[R 자동화 파이프라인]
├─ 데이터 정합성 검사 ├─ QC / IS / RT 품질 지표 계산 ├─ Trend / Drift 분석 ├─ Anomaly detection ├─ Batch summary 생성 ↓ [자동 리포트 & 판단 보조] (PDF / HTML / Dashboard)

이 구조의 핵심은
“기존 workflow를 바꾸지 않는다”는 점이다.

1단계: 데이터 수집 – Raw data를 건드리지 않는 이유

1-1. 입력 데이터의 현실적인 형태

대부분의 분석팀에서 이미 확보 가능한 데이터는 다음과 같다.

  • Sample ID
  • Analyte name
  • Peak area
  • IS peak area
  • Area ratio
  • RT
  • Nominal / Calculated concentration
  • QC level
  • Pass / Fail
  • Batch ID
  • Instrument ID
  • Analyst
  • Analysis date

이 데이터는 이미
✔ vendor software export
✔ LIMS export

형태로 존재한다.

👉 R 파이프라인은 이 데이터를 “소비”하는 쪽이다.

1-2. 왜 raw spectrum부터 시작하지 않는가?

  • 규제 리스크 증가
  • validation scope 확대
  • vendor 결과와 불일치 시 책임 문제

자동화의 목적이
“새로운 정량”이 아니라 “판단의 일관성”이라면
raw data는 오히려 시작점이 아니다.

2단계: 데이터 정합성 검증 (Data sanity check)

이 단계는 자동화에서 가장 중요하지만,
사람이 거의 의식하지 못하는 부분이다.

R이 자동으로 확인하는 것들

  • 같은 Sample ID에 analyte 수가 맞는가?
  • IS 누락된 샘플은 없는가?
  • QC level 이름이 batch마다 바뀌지 않았는가?
  • 농도 단위 혼용은 없는가?
  • RT가 물리적으로 불가능한 값은 아닌가?

👉 이 단계의 목적은 **“분석 전에 데이터가 이미 깨져 있는 상황”**을 막는 것이다.

이 기능만으로도

  • 수작업 검토 시간 감소
  • 사소한 실수로 인한 재분석 방지

효과가 매우 크다.

3단계: QC · IS · RT 품질 지표 자동 계산

Vendor software에서도 볼 수 있지만,
R은 ‘비교’에 강하다.

3-1. QC 평가를 재정의한다

기존 QC 평가는 보통 이렇게 끝난다.

  • Pass / Fail
  • %Bias
  • %CV

R 파이프라인에서는 질문이 바뀐다.

  • 어느 QC level이 가장 불안정한가?
  • 같은 level이라도 batch 간 분포는 어떻게 다른가?
  • 실패 직전 QC는 어떤 패턴을 보였는가?

즉, QC를 점(point)이 아니라
👉 분포(distribution)로 본다.

3-2. IS response를 “품질 센서”로 활용

IS는 원래 보정 도구지만,
자동화 파이프라인에서는 시스템 상태 지표가 된다.

  • IS response drift
  • IS CV 변화
  • 특정 analyte만 IS 상관이 깨지는 패턴

이 분석은 vendor software보다
R에서 훨씬 직관적으로 구현된다.

4단계: Batch-to-batch Trend 분석

이 단계부터 R 파이프라인의 진짜 가치가 드러난다.

4-1. 무엇을 트렌드로 보는가?

  • Analyte response
  • IS response
  • RT
  • Calibration slope / intercept
  • QC bias

시간 축으로 쌓으면,
“아직 문제는 아니지만 방향성이 있는 변화”가 보이기 시작한다.

👉 이것이 preventive quality management의 출발점이다.

4-2. PM·column 교체·method 변경과 연결

R에서는 단순히 날짜가 아니라,

  • 장비 PM 시점
  • column 교체일
  • solvent lot 변경일

event marker로 함께 표시할 수 있다.

그 결과,

“PM 이후 signal은 좋아졌지만 RT variability는 오히려 증가했다”

같은 정성적이지만 설득력 있는 해석이 가능해진다.

5단계: Anomaly detection (AI 이전 단계)

여기서 말하는 anomaly는
QC fail이 아니다.

  • 기준은 만족
  • 하지만 평소 패턴과 다름

R 기반 접근의 특징

  • 복잡한 딥러닝 ❌
  • 설명 가능한 rule + 통계 기반 ⭕️

예를 들면,

  • IS response가 과거 분포의 1% 밖
  • RT shift가 특정 analyte에서만 발생
  • QC CV 패턴이 특정 analyst에서 반복

👉 “이상함”을 자동으로 flag만 해준다.
판단은 여전히 사람이 한다.

6단계: 자동 리포트 생성 (가장 설득력 있는 산출물)

자동화의 성패는
“결과를 누가 이해하느냐”에 달려 있다.

R 파이프라인의 마지막은 보통 다음 중 하나다.

  • Batch summary PDF
  • QC trend HTML report
  • Method health dashboard

중요한 점

  • 코드 ❌
  • 그래프 + 해석 중심 ⭕️
  • SOP 언어로 설명 가능 ⭕️

Audit에서 가장 강력한 순간은 이런 말이다.

“이 분석은 자동으로 이런 지표를 점검하고,
이상이 있을 경우 이런 기준으로 검토합니다.”

7단계: 이 파이프라인이 조직에 남기는 것

R 기반 LC-MS 자동화 파이프라인은
단순한 효율 개선이 아니다.

조직에는 다음이 남는다.

  • 분석 판단 기준의 명문화
  • 개인 경험의 시스템화
  • 규제 대응 가능한 설명 구조
  • AI 도입을 위한 데이터 토대

정리하며

이 파이프라인의 핵심은
“LC-MS 데이터를 새로 만드는 것”이 아니라
“이미 있는 데이터를 다르게 쓰는 것”이다.

  • Vendor software는 정량에 강하고
  • R 파이프라인은 해석과 연결에 강하다

이 둘이 분리되지 않고 이어질 때,
LC-MS 분석은
👉 실험 중심 기술에서 데이터 기반 시스템으로 진화한다.

728x90
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/02   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
글 보관함