大手国内製薬企業様 | 臨床試験の成功予測モデル開発 | For leading Japanese pharmaceutical company | Clinical Trial Success Prediction Model

AI/MLClinical TrialResearchHealthTech

Overview

共同研究として実施された、AIを活用した創薬・臨床試験の効率化プロジェクトです。成功率が低く予測が難しいとされるがん免疫領域（Cancer immune）のPhase 3成功率予測モデルを構築し、治験効率の向上・迅速化と資源の適正化を目指しました。既存の機械学習モデルに加え、最新の深層学習や「世界モデル」の要素技術（自己教師あり学習、転移学習など）を適用し、実データにおける有効性を検証しました。

研究背景と目的

新薬開発において、Phase 2からPhase 3への移行成功率は約24.6%と低く、膨大なコストと期間が課題となっています。本プロジェクトでは、患者のベースラインデータや治療期の時系列データ（バイタル、臨床検査値など）を入力として、Overall Survival (OS) や Progression Free Survival (PFS) を予測。単なる精度向上だけでなく、XAIによる説明性の担保や、世界モデル概念（観測から表現を獲得する）の適用可能性を検証しました。

🌍

世界モデル概念の適用

医師が患者のバイタルなどの一部を観測して体内状態を認識するように、モデルが観測結果（時系列データ）とAction（投薬）から「体内（世界）」の表現を獲得し、将来の状態を推論・予測するアプローチを模索しました。

検証したアプローチと最新技術

深層学習・転移学習

TransTab

列構造の異なる複数臨床試験データを統合

カラム（特徴量）に差異がある複数の臨床試験データ間でも学習が可能なTransTabを採用。限られたデータセットを統合して転移学習・ファインチューニングを行うことで、予測精度の向上を検証しました。

自己教師あり学習

マスク特徴量予測 (SSL)

欠損データを逆用した特徴学習

患者データの一部をマスクし、それを予測させる自己教師あり学習（SSL）を導入。TabNetやLightGBMを用いて特徴量間の関係性を学習させ、有効性予測の「信頼度スコア」算出の基礎としました。

時系列SSL

MVTS-Trans / オートエンコーダ

治療期の動的変化を捉える

ベースライン期のテーブルデータだけでなく、治療期のバイタルや臨床検査値の変動を捉えるため、MVTS-Transなどのオートエンコーダ型時系列SSL手法を調査・実装しました。

アンサンブル学習

AutoGluon

複数モデルの比較・統合

LightGBMなどのツリーベース手法と深層学習ベースの手法を比較・統合するため、AutoGluonを用いたアンサンブル学習を実施。モデルごとの予測挙動（外れ値や予測困難な患者層）の分析を行いました。

検証パイプライン

データ前処理・EDA

→

ベースラインモデル構築

→

深層学習・SSL適用

→

信頼度スコア評価

プロジェクト情報

カテゴリ

研究 / データ分析 PoC

年度

2023 - 2024

分野

AI創薬・医療データサイエンス

データソース

DataSphere (治験オープンデータ)

言語

Python

技術スタック

PythonPyTorchLightGBMTransTabTabNetAutoGluonMVTS-Trans

キーワード

臨床試験予測世界モデル自己教師あり学習 (SSL)転移学習時系列解析免疫チェックポイント阻害薬DataSphere

ハイライト

✓TransTabを活用し、複数治験データを用いた転移学習モデルの構築と精度向上を検証
✓欠損値を含むテーブル/時系列データに対し、自己教師あり学習(SSL)による特徴表現の獲得を実装
✓LightGBMや深層学習モデル群の残差・予測分布を比較分析し、治験の「成功/失敗」の信頼度スコアを可視化