본문 바로가기

제약산업

AI 기반 신약 스크리닝 알고리즘 평가 방법론

 

1. 서론: AI로 설계하는 분자 구조, 어떻게 평가할 것인가?

AI 기술이 신약 개발 프로세스에 본격적으로 도입되면서, 이제는 단순히 후보 물질을 찾는 수준을 넘어서 분자 구조를 직접 생성하고 설계(De novo design) 하며, 약물-표적 간 상호작용을 예측하는 일까지 가능해졌습니다.

그러나, 이러한 AI 기반 모델이 실제 제약 산업에 쓰이기 위해서는 반드시 그 정확성, 일반화 가능성, 화학적 타당성을 정량적으로 검증하고 평가할 수 있어야 합니다. QSAR (Quantitative Structure–Activity Relationship) 모델도 마찬가지로, 예측 정확도와 해석 가능성에 대한 객관적 지표가 요구됩니다.

이 글에서는 De novo drug design 및 QSAR 모델에 대한 평가 방법론, 실제 사용되는 벤치마크 데이터셋, 대표적인 평가 지표들을 종합적으로 다루며, 최근의 동향까지 함께 살펴보겠습니다.

AI 기반 신약 스크리닝 알고리즘 평가 방법론
AI 기반 신약 스크리닝 알고리즘 평가 방법론


2. De novo drug design: AI가 약물을 디자인하는 방식

2.1. 정의와 배경

De novo drug design은 화학적 구조가 알려지지 않은 상태에서 표적 단백질에 대한 높은 결합 친화도(affinity)를 가지도록 새로운 분자를 설계하는 과정입니다. 과거에는 전문가의 직관에 의존했지만, 최근에는 생성 모델(Generative Models)을 활용한 분자동역학 기반 설계가 주류로 자리 잡고 있습니다.

2.2. 주요 알고리즘

  • Variational Autoencoders (VAE)
  • Generative Adversarial Networks (GAN)
  • Reinforcement Learning (RL)
  • Graph-based neural networks (GNNs)
  • SMILES 기반 Transformer 모델 (e.g., ChemBERTa, MolGPT)

이들 모델은 기존 분자 데이터베이스를 학습한 후, 새롭고 합성 가능한 화합물을 생성합니다. 하지만 생성된 분자들이 실제로 약물로서의 가치를 가지는지, 독성이 없는지, 합성이 가능한지 등의 문제는 별개의 검증 절차를 통해 평가되어야 합니다.


3. QSAR 모델: 분자 구조 기반 생물학적 활성 예측

3.1. 정의

QSAR은 분자 구조의 수치적 표현(feature)과 그 생물학적 활성을 연결짓는 예측 모델로, 다음과 같은 문제에 활용됩니다:

  • 특정 약물 후보의 효능 예측
  • 독성(Toxicity) 및 ADMET(Absorption, Distribution, Metabolism, Excretion, Toxicity) 예측
  • 표적 선택성과 부작용 가능성 평가

3.2. 특징

  • 입력: 분자 지문(Fingerprints), 물리화학적 특성(예: LogP, TPSA 등)
  • 모델링 기법: Random Forest, SVM, XGBoost, Deep Learning
  • 산출물: 활성 여부 (binary classification), IC50, Ki 등 (regression)

4. AI 기반 약물 스크리닝 모델의 핵심 평가 지표

모델의 성능을 평가하는 데 있어 단순한 정확도(accuracy) 외에도 다양한 지표들이 사용됩니다. 특히, 약물 설계와 독성 예측은 데이터 불균형 문제와 실용적 측면(예: 합성 가능성)을 고려해야 하기 때문에 다음과 같은 세분화된 지표들이 활용됩니다.

4.1. 생성 모델의 평가 지표 (De novo design)

평가 항목                 설명
Validity 생성된 분자가 화학적으로 유효한 구조인지 여부 (SMILES validation 등)
Uniqueness 중복 없이 고유한 분자가 얼마나 생성되었는가
Novelty 학습 데이터에 없던 새로운 분자가 얼마나 포함되었는가
Drug-likeness Lipinski rule of five, QED (Quantitative Estimate of Drug-likeness) 등의 기준을 만족하는지
SA Score 합성 가능성(Synthetic Accessibility) 점수
Diversity 분자 간 구조적 다양성 (Tanimoto similarity 기반)
Target Affinity Docking score 혹은 예측된 binding affinity 등 생물학적 효과 측정 지표
 

4.2. 예측 모델의 평가 지표 (QSAR 중심)

평가 항목                                             설명
RMSE / MAE 예측값과 실제값의 평균 오차 (회귀 문제에 사용)
R² (결정계수) 모델이 데이터를 얼마나 잘 설명하는가
AUC-ROC / PR-AUC 분류 문제에서 민감도와 특이도를 동시에 고려한 평가
F1-score / MCC 클래스 불균형이 있는 경우 적합한 분류 성능 지표
External Validation Score 훈련에 사용되지 않은 외부 세트로 모델을 검증한 결과
Y-randomization Test 모델이 우연히 학습된 것이 아님을 검증하는 랜덤 테스트
Applicability Domain (AD) 모델이 신뢰할 수 있는 입력 공간을 정의함 (Leverage method 등 활용)
 

5. 벤치마크 데이터셋과 모델 비교 방법

5.1. 공개 벤치마크 데이터셋

다양한 AI 모델을 객관적으로 비교하고, 모델의 일반화 능력을 평가하기 위해 학계와 산업계에서는 다음과 같은 데이터셋이 널리 활용되고 있습니다:

데이터셋                          특징
ChEMBL 생물학적 활성값(IC50, Ki 등)이 포함된 대규모 약물-표적 데이터베이스
ZINC / ZINC15 상용 가능한 2억 개 이상의 화합물 데이터베이스, De novo 설계에 활용
QM9 / QMugs 양자화학 계산값이 포함된 소분자 데이터셋 (분자 특성 예측용)
MoleculeNet Graph-based deep learning을 위한 대표 벤치마크, 다양한 하위 과제 포함 (tox21, BBBP 등)
TOX21 / TOXCAST 미국 환경청이 제공하는 독성 예측용 데이터셋
PDBbind 단백질-리간드 결합 친화도 예측용 구조 기반 데이터셋
 

5.2. MoleculeNet 벤치마크 소개

MoleculeNet은 Stanford의 DeepChem 팀이 제공하는 대표적인 벤치마크 모음으로, 다음과 같은 서브테스크를 포함하고 있어 QSAR 및 분자 생성 모델 모두를 평가할 수 있습니다:

  • Classification tasks: Tox21, HIV, BACE
  • Regression tasks: ESOL (용해도), FreeSolv, Lipophilicity
  • Graph-based tasks: QM9, PCBA

5.3. 평가 방식

  • Cross-validation: K-fold 방식의 교차 검증
  • Temporal Split: 신약 개발의 시계열 특성을 반영한 시간 기반 검증
  • Scaffold Split: 분자의 핵심 골격(SMILES scaffold)을 기준으로 분리 → 모델의 일반화 능력을 더 엄격히 테스트

6. 실제 적용 사례

[사례 1] AtomNet – Deep Learning 기반 구조 기반 스크리닝

Atomwise에서 개발한 AtomNet은 CNN 기반의 구조 예측 모델로, 수천만 개의 분자에 대해 docking 없이 binding affinity를 예측합니다. 해당 모델은 PDBbind 데이터셋을 기반으로 학습되었으며, 제약사들과의 공동연구에서 단백질-화합물 스크리닝 시간을 수일에서 수시간으로 단축시키는 데 기여했습니다.

[사례 2] Insilico Medicine – Reinforcement Learning 기반 De novo 설계

Insilico Medicine은 RL 기반의 분자 생성기를 이용해 fibrosis 타깃에 대한 novel compound를 설계했고, 실제 합성 후 in vitro 실험에서 높은 효능을 입증했습니다. 모델의 평가는 novelty, validity, SA score, docking score 등을 통해 다각적으로 진행되었습니다.


7. 한계와 도전 과제

  • 합성 가능성과 실제 약물화의 괴리: AI가 설계한 분자 중 일부는 합성이 불가능하거나, 제조 공정이 비현실적인 경우도 있습니다.
  • 실험적 검증의 병목: 수천 개의 후보 중 실제로 in vitro, in vivo 실험을 거쳐 유효성을 입증할 수 있는 자원은 한정되어 있음.
  • 과적합(overfitting) 문제: 소규모 데이터셋에서의 deep learning 모델은 종종 데이터에 과적합되는 문제가 발생.
  • 데이터 편향 및 낮은 다양성: 공개 데이터셋이 특정 질환, 특정 단백질 계열에 집중되어 있어 일반화에 제약.

8. 결론: 평가 가능성 없는 AI는 신약개발을 이끌 수 없다

AI 기반 신약 개발이 실질적인 약물 혁신으로 이어지기 위해서는, 기술 그 자체보다도 정확하고 객관적인 성능 평가 체계의 구축이 더 중요합니다. De novo 생성이 가능하더라도, 그것이 실제 약물로 전환될 가능성을 정량적으로 입증할 수 없다면 의미가 없습니다.

QSAR 모델도 마찬가지입니다. 단순한 높은 정확도보다는, 적용 가능한 영역(AD), 해석 가능성, 외부 검증 데이터에서의 성능이 더 중요하게 평가되어야 합니다.

앞으로는 평가 지표의 다양화, 벤치마크 데이터의 확대, 그리고 생물학적·약리학적 지식과의 융합을 통해, AI 기반 신약 개발의 실용성과 신뢰성이 더욱 향상될 것으로 기대됩니다.