Kaplan-Meier, Cox 분석 외에 최근 머신러닝 기반 분석까지 실제 적용 사례 중심으로
1. 들어가며
임상시험은 신약 개발과 치료 전략 수립에 있어 핵심적인 단계로, 이 과정에서 수집된 데이터는 의약품의 안전성과 유효성을 입증하는 데 매우 중요한 역할을 한다. 특히 생존율, 재발률, 치료 지속 기간 등 시간에 기반한 데이터를 다루는 경우가 많은 만큼, 고급 분석 기법의 선택과 적용이 매우 중요하다.
본 글에서는 전통적인 생존 분석 기법인 Kaplan-Meier 추정법과 Cox 비례위험모형을 시작으로, 최근 주목받고 있는 머신러닝 기반 분석 기법들에 이르기까지 임상 데이터 분석의 진화 과정을 실제 사례 중심으로 다룬다.
2. 전통적인 생존 분석 기법의 기초
2.1 Kaplan-Meier 추정법 (Kaplan-Meier Estimator)
Kaplan-Meier(K-M) 방법은 시간에 따른 생존 확률을 추정하는 데 가장 널리 사용되는 비모수(non-parametric) 기법이다. 이 방법은 특히 데이터에 우측 검열(censoring)이 존재할 때 유용하다.
- 적용 예시:
유방암 환자의 5년 생존률을 비교하는 임상시험에서, A 치료제군과 B 치료제군의 생존 곡선을 Kaplan-Meier로 그려 차이를 시각화하고 로그순위 검정(Log-Rank Test)으로 통계적 유의성을 평가. - 장점: 이해하기 쉽고 시각화가 용이함
- 한계: 공변량 조정이 어려움, 시간에 따라 위험 비율이 변하는 경우를 반영하기 어려움
2.2 Cox 비례위험모형 (Cox Proportional Hazards Model)
Cox 모형은 생존 시간에 영향을 미치는 여러 공변량(variates)을 통제할 수 있는 반모수적(semiparametric) 방법이다.
- 수식:
h(t) = h₀(t) × exp(β₁X₁ + β₂X₂ + ... + βₖXₖ)
여기서 h₀(t)는 기준 위험함수(baseline hazard), β는 계수, X는 공변량 - 실제 사례:
임상 3상에서 항암제 후보물질이 연령, 성별, 종양 크기 등에 따라 생존율에 어떤 영향을 미치는지를 Cox 모형으로 분석해 승인 신청 자료에 활용. - 한계:
‘비례위험 가정(Proportional Hazard Assumption)’이 위배될 경우 부적절하며, 복잡한 상호작용은 반영하기 어렵다.
3. 생존 분석의 확장: 경쟁위험 모형과 다변량 접근
3.1 경쟁위험 모델 (Competing Risk Models)
특정 사건(예: 사망) 외에도 여러 사건이 동시에 발생할 수 있는 임상 환경에서는 경쟁위험모형(Fine & Gray 모델 등)이 활용된다.
- 예시:
심혈관 사망과 비심혈관 사망이 경쟁적으로 발생하는 만성질환 환자의 치료제 효과 분석 시.
3.2 시간 의존 공변량 (Time-Dependent Covariates)
치료 반응, 부작용 등의 변화가 시간에 따라 달라지는 경우, 시간 의존적 공변량(Time-varying covariates)을 고려한 분석이 필요하다.
- 적용:
면역항암제 치료 환자에서 면역반응이 시간에 따라 변화하므로, 이를 반영해 더 정밀한 위험 추정이 가능.
4. 머신러닝 기반 생존 분석: 예측력 강화
4.1 Random Survival Forest (RSF)
랜덤 포레스트를 생존 분석에 적용한 RSF는 다수의 결정 트리를 이용해 생존 시간 및 위험을 예측하는 강력한 방법이다.
- 장점:
변수 간 상호작용 및 비선형 관계를 반영 가능, 비례위험 가정 불필요 - 실제 사례:
미국 Memorial Sloan Kettering Cancer Center는 폐암 환자 데이터를 RSF로 분석해 1년 생존 확률 예측 모델을 개발.
4.2 DeepSurv: 딥러닝을 이용한 Cox 모형 확장
DeepSurv는 신경망을 기반으로 한 Cox 모형의 확장 버전으로, 비선형적 변수 관계와 복잡한 데이터 구조를 반영할 수 있다.
- 예시:
다중 오믹스 데이터를 활용해 유방암 환자의 생존 예측에 DeepSurv 모델을 적용한 연구에서 기존 Cox 모형 대비 향상된 concordance index 보고.
4.3 LSTM, RNN 기반 모델
시간 연속 데이터를 다룰 수 있는 순환 신경망(RNN) 및 LSTM(Long Short-Term Memory)은 시간의존적 생존 분석에 활용 가능.
- 적용:
병원 입원 환자의 생체신호 변화를 기반으로 패혈증 발생 시점을 예측하는 연구에 사용.
5. 실제 분석 사례 요약
폐암 환자 생존 예측 (미국 MSKCC) | RSF | 1년 생존률 예측 정확도 개선 |
유방암 유전체 기반 예측 (Harvard Med) | DeepSurv | Cox 대비 높은 C-index |
패혈증 예측 (MIT) | LSTM | 6시간 전 조기 예측 가능 |
면역항암제 반응 예측 (RWD 기반) | Time-varying Cox | 면역반응 시점에 따른 생존률 개선 파악 |
6. 국내외 활용 동향
6.1 국내 동향
- 국립암센터, 서울아산병원 등은 RWD 기반 생존 분석 연구 확대
- AI 기반 생존 예측모델을 보건의료 데이터 플랫폼(KHIS 등)에 시범 도입
- 식약처, 임상시험 통계에 머신러닝 기법 도입 가이드라인 마련 중
6.2 글로벌 동향
- 미국 FDA는 2023년부터 RWE 기반 생존 분석에 ML 모델 활용을 ‘조건부 승인’ 가능
- EMA, AI 모델에 대한 투명성과 해석 가능성 확보를 위한 가이드라인 강화
- Roche, Novartis 등은 ML 기반 생존 예측 알고리즘을 제품 개발 및 실사용 데이터 분석에 적극 활용 중
7. 결론: 임상 데이터 분석의 진화, 예측에서 해석으로
임상시험 데이터는 더 이상 단순한 통계적 검정의 대상이 아니라, 복합적인 환자 상태를 이해하고 예측하는 실시간 해석 도구로 진화하고 있다. 전통적인 Kaplan-Meier나 Cox 모델도 여전히 중요하지만, 고차원 데이터와 시간 의존성, 비선형 구조를 포괄할 수 있는 머신러닝 기법의 도입은 연구자의 통찰을 넓혀주고 있다.
앞으로는 ‘모델의 성능’뿐 아니라, 해석 가능성(explainability)과 규제 수용성(regulatory acceptability)까지 고려한 분석 전략 수립이 필수적이다. 연구자, 임상가, 데이터 과학자 간의 협력이 더욱 긴밀해져야 하는 이유다.
'제약산업' 카테고리의 다른 글
AI 기반 신약 스크리닝 알고리즘 평가 방법론 (0) | 2025.05.22 |
---|---|
다변량 분석을 통한 부작용 예측 및 약물 리스크 평가 (0) | 2025.05.21 |
약물유전체학(Pharmacogenomics) 분석과 개인맞춤형 약물 설계 (0) | 2025.05.20 |
바이오마커 기반 환자 세분화와 정밀의료: 제약 산업의 새로운 전략 패러다임 (0) | 2025.05.19 |
실제 데이터를 활용한 의약품 효과성 비교 연구(Comparative Effectiveness Research, CER): RWD/RWE 기반 분석 접근 (1) | 2025.05.17 |
의약품 허가 심사의 글로벌 차이점과 대응 전략 (0) | 2025.05.16 |
약가 산정 제도(HTA)의 글로벌 비교: 건강 기술 평가를 통한 약가의 가치 기반 접근 (0) | 2025.05.15 |
퇴행성 질환에 대한 지역 기반 예방·관리 정책 비교: 일본, 유럽, 한국, 미국 사례 중심 분석 (2) | 2025.05.14 |