業務でAIを使用するために、どのような検証が必要なのか気になり、検証の要求が厳しい製薬業界の状況を確認してみました。
ヨーロッパの製薬関連のバリデーション(検証)について書かれているEU及びPIC/S のGMPガイドライン Annex11(コンピュータ化システム)を
見たところ、AI等の新しい技術に対応するために2026年の改訂版発出にむけて準備中とのことでした。
一方アメリカの食品医薬品局(FDA)は、2025年1月に、AIモデルの信頼性評価のガイダンスのドラフトとして、
Considerations for the Use of Artificial Intelligence To Support Regulatory Decision-Making for Drug and Biological Products – Guidance for Industry and Other Interested Parties
を出して、2025年4月7日までパブリックコメントを募集していました。
出典:https://www.fda.gov/media/184830/download
ドラフトではありますが、参考になるかもしれないと目を通してみたところ、AIの信頼性を評価するのがいかに大変かわかりました。
ガイダンスをざっくりまとめると以下の通りです。
1.AIに何を答えてほしいかを決める
2.1を実現するために、AIをどの範囲でどう使うか決める
3.AIを使うリスクを評価する
4.AIの回答の信頼性評価計画を立てる
①モデルとモデルの開発プロセスについて
モデル、開発に使用するデータ、モデルのトレーニングについての説明が必要
②モデルの評価プロセスについて
テストデータ、予測と観測結果、モデルのパフォーマンス指標の説明、モデルの限界、品質保証や管理手順についての
説明が必要
5.信頼性評価計画を実施する
6.信頼性評価レポートをまとめ、逸脱の確認をする
7.AIの妥当性を判断する
ガイダンスの中の、 ●医薬品ライフサイクルにおける AI の使用に関する考慮事項 > A. リスクベースの信頼性評価フレームワーク
に、信頼性評価の7つのステップが説明されていて、そのステップ1~3には、AIを 例1:臨床開発と、例2:非経口注射剤の商用生産 で
活用した場合の具体例があってイメージしやすかったのですが、信頼性評価のために、これだけたくさんのことをしなければならないのかと
衝撃を受けました。
また、B.特別な考慮には、AIは自己進化する可能性があるので、AIのライフサイクルを通じて監視する必要があるとも書かれていました。
こんなに大変だと、AIの信頼性評価自体をAIにお願いしてしまいそうです。。。
************************** ガイダンスのドラフト要約 **************************
●序論
このガイダンスは、医薬品の安全性、有効性、品質に関する規制上の意思決定をサポートするための情報やデータを生成する人工知能(AI)
の使用に関する推奨事項をスポンサー及びその他の利害関係者に提供するもので、特定の使用状況 (Context of Use : COU) における
AIモデルの信頼性を確立し評価するために使用できるリスクベースの信頼性評価フレームワークを提供する。
●AIの使用例
(1) 動物ベースの薬物動態、薬力学、および毒物学的研究の数の削減
(2) 臨床薬物動態および/または曝露反応分析のための予測モデルの使用
(3) さまざまなソース (自然史、臨床研究、遺伝子データベース、臨床試験、ソーシャルメディア、レジストリなど) からのデータを統合して
疾患の症状、異質性、進行の予測因子、疾患のサブタイプの認識に関する理解を深める
(4) 臨床試験のエンドポイントの開発や結果の評価のための、大量のデータ (実世界のデータソースからのデータやデジタルヘルス技術
からのデータなど) の処理および分析
(5) 市販後の薬物有害事象情報を報告するための識別、評価、および処理
(6) 製造条件の選択
●AI使用の課題
(1) AIモデルをトレーニングするためのデータセットの品質、サイズ、代表性のばらつき
データセットにより、バイアスが生じ、AI 駆動型の結果の信頼性について疑問が生じる可能性がある。そのため、AIモデルの開発に
使用されるデータは使用に適したものでなければならない。つまり、データは関連性 (主要なデータ要素と十分な数の代表的な被験者の
参加または製造プロセスや操作を代表する十分なデータを含むなど) と信頼性 (正確、完全、追跡可能) の両方を備えている必要がある。
(2) これらのモデルの基盤となる計算および統計手法の複雑さ
AIモデルがどのように開発され、どのように結論に至ったかを理解することが困難であり、方法論の透明性 (特定のAIモデルの開発に
使用された方法とプロセスを規制申請で詳細に記述するなど) が必要になる場合がある。
(3) 展開されたモデルのアウトプットの精度の不確実性
アウトプットの解釈、説明、または定量化が難しい場合がある。
(4) モデルのライフサイクルのメンテナンス
新しいデータがインプットされ、これらのインプットがモデルのトレーニングに使用されたデータと異なる場合、モデルのパフォーマンス
が時間の経過とともに、または展開環境間で変化する可能性がある。
●医薬品ライフサイクルにおける AI の使用に関する考慮事項
A. リスクベースの信頼性評価フレームワーク
リスクベースの信頼性評価フレームワークは、モデルのリスクに基づいて特定のCOUに対するAIモデル出力の信頼性を確立および評価
するための次の7つのステップのプロセスで構成されている。
◆ステップ 1:AIモデルによって対処される関心のある質問の定義
【例1:臨床開発】における質問例
どの臨床試験参加者が低リスクと見なすことができ、投与後に入院モニタリングを必要としないか?
【例2:マルチドーズバイアルで分配される非経口注射剤の商用生産】における質問例
バイアルは、確立された充填容量仕様を満たしているか?
関心のある質問に答えるために、さまざまな証拠源が使用される。テスト、臨床試験、製造プロセスの検証などから生成された証拠を、
AIモデルから生成された証拠と組み合わせて使用して、関心のある特定の質問に対処する。これらの異なる証拠源は、ステップ 2 で
AIモデルのCOUを説明するときに明記する必要があり、ステップ3で評価されるモデルの影響の判断に関連する。
◆ステップ 2:AIモデルの COU の定義
関心のある質問に対処するために使用されるAIモデルの特定の役割と範囲を定義する。定義では、モデル化される内容、モデルの
アウトプットの使用方法を詳細に記述する必要がある。
【例1:臨床開発】におけるCOU
AIモデルのアウトプットを使用して、参加者を薬剤に対する生命を脅かす可能性 のある副作用の低リスクグループと
高リスクグループに分類する。(AIモデルの役割)。
参加者が低リスクと見なされるかどうか、および投与後に入院モニタリングまたは外来モニタリングが必要かどうかを決定する
ために AIモデルのみを使用する。(AIモデルの範囲)。
【例2:マルチドーズバイアルで分配される非経口注射剤の商用生産】におけるCOU
AIモデルを使用して、バイアルの視覚画像から取得したデータを分析し、容量の偏差が発生したかどうかを判断する。(AIモデル
の役割)。
ただし、リリース テストの一環として、各バッチの代表的なサンプルに対して充填容量の独立した検証が実行される。したがって、
AIベースのモデルは、製品のリリースの唯一の決定要因にはならない。(AIモデルの範囲)。
◆ステップ 3:AIモデルのリスクの評価
モデルのリスクとは、AIモデルのアウトプットが、好ましくない結果になる決定に導く可能性のことで、2つの要素の組み合わせである。
①モデルの影響
質問に対する、AIモデルから得られた証拠の、他の証拠に対する寄与
②決定の結果
質問に関する誤った決定から生じる不利な結果の重要性
【例1:臨床開発】におけるAIモデルのリスク
この例では、AIモデルが、参加者が受けるモニタリングの種類を決定する唯一の要因となるため、モデルの影響はおそらく
高いと推定される。
入院モニタリングが必要な参加者が外来モニタリングカテゴリに分類されると、参加者が適切な治療を受けられない可能性が
ある状況で、生命を脅かす可能性のある副作用が発生する可能性があるため、決定の結果も高いとみなされるため、このモデル
のリスクは高くなる。
【例2:マルチドーズバイアルで分配される非経口注射剤の商用生産】におけるAIモデルのリスク
薬剤を含むバイアルの容量の偏差により、さまざまな問題が発生する可能性がある。たとえば、品質基準を満たさないユニットが
リリースされると、投薬ミスにつながる可能性がある。容量は重要な品質特性であり、容量の測定が不正確だと製品の品質に
大きな影響を与えるため、決定の結果は高くなる。ただし、この例では、製造業者はリリーステストの一環として、各バッチの代表的
なサンプルの充填容量を測定する。リリーステストを通じて充填容量を測定すると、AIモデルの影響が軽減されるため、モデルの
影響は低いと判断される。決定の結果は高いとみなされ、モデルの影響は記載された緩和策により低いとみなされることから、
この COU のモデルのリスクは中程度となる。
ステップ 4の信頼性評価活動は、AIモデルのリスクに応じて、特定のCOUに合わせて調整される必要があるため、モデルリスクの評価は
重要である。
◆ステップ 4: COUにおけるAIモデルのアウトプットの信頼性評価計画の作成
信頼性評価計画案には、少なくとも、ステップ 1、2、および 3 の情報と、スポンサーがこれらのステップの結果に基づいて実施する予定の
信頼性評価活動案が含まれている必要がある。
①モデルとモデル開発プロセスについての説明
1.モデルの説明
• 使用される各モデルの説明
• 特定のモデリング手法を選択する根拠
2.モデルの開発に使用されるデータの説明
AIモデルのパフォーマンスは、モデルのトレーニングとチューニングに使用されるデータセットに大きく依存するため、AIモデルの
開発に使用されるデータは使用に適した関連性と信頼性が必要である。
モデルリスクに応じて、スポンサーおよびその他の利害関係者は、開発データセット(トレーニングデータ(*1)セットおよび
チューニング(*2)データセット)のデータ管理プラクティスを説明し、開発データセットの特徴を説明する必要がある。
*1 トレーニングデータ:モデルの重み、接続、およびコンポーネントの定義を含む、AIモデルを構築するための手順と
トレーニングアルゴリズムで使用されるデータ。
*2 チューニングデータ:少数のトレーニング済みAIモデルを評価するために使用されるデータ。
• (1)開発データセット(開発データセットがトレーニング、チューニング、およびその他のサブセットに分割された方法を含む)
と(2)各データセットを使用して実行されたモデル開発活動の仕様についての説明
• 開発データがどのように収集、処理、注釈付け、保存、管理され、AIモデルのトレーニングとチューニングに使用されているか、
または使用される予定かの説明。
• 開発データが COU にどのように適合しているかの説明
• 開発データが集約されているかどうか(例:連合学習の使用)の説明
• 各データセットを使用して実行されたモデル開発活動についての説明
3.モデルのトレーニング
• モデルのトレーニング方法
• 事前トレーニング済みモデル(または複数の事前トレーニング済みモデル)が使用されたかどうかの特定
• アンサンブル法の使用についての説明
• AIモデルのキャリブレーションの説明(例:精度および/または再現性の向上を目的とした、トレーニング済みモデルの出力の
微調整)。
• コンピュータソフトウェア (ツールボックスとパッケージを含む)の品質保証と管理の手順、およびバージョンの変更がどの
ように追跡されるかの説明
②モデル評価プロセスについての説明
トレーニング後の AIモデルのパフォーマンスを評価するために、テストデータが使用される。テストデータは開発データとは独立して
いる必要がある。
モデルリスクに応じて、スポンサーおよびその他の利害関係者は、モデル評価に関する信頼性評価計画に、該当する場合は以下の
情報を含める必要がある。
• AIモデルの評価のためにテストデータがどのように収集、処理、注釈付け、保存、管理、および使用されるかの説明
• 開発データ (トレーニングおよびチューニングデータ) とテストデータの独立性の説明
開発段階とテスト段階の間でデータが重複して使用されていた場合は、それらのデータの使用方法の説明と、その使用が適切で
あった理由の説明
• テストデータのCOUへの適用性についての説明
過去の開発データを使用して予測モデルを開発する場合、開発データがCOUで使用される展開環境で遭遇したデータと異なると、
AIモデルが COUで適切に機能しない可能性がある。
• 開発データから独立したテストデータを使用した、モデル予測と観測データの一致についての説明
• 選択したモデル評価方法の根拠と、使用したモデリング方法とCOUへの評価方法の適用性についての説明
• モデルを評価するために使用されたパフォーマンス指標の説明
• 潜在的なバイアスを含む、モデリング手法の限界についての説明
• コード検証の品質保証および管理手順についての説明
これには、エラーや異常の解決 (例: ユーザーが生成したコードにエラーがないこと、計算が正確であること)が含まれる。
◆ステップ 5:信頼性評価計画の実行
実行前にFDAと計画について話し合うことで、(1) モデルのリスクと COU に基づいて、提案されたモデルに対する適切な信頼性
評価活動に関する期待値を設定し、(2) 潜在的な課題と、その課題に対処する方法を特定できるようになる。
◆ステップ 6:信頼性評価計画の結果の文書化と、計画からの逸脱について議論
信頼性評価計画の結果と計画からの逸脱を信頼性評価レポートとして文書化する。
このステップは通常、信頼性評価計画の実行中に行われ、ステップ1から4までの結果の説明を含める必要がある。
◆ステップ 7:COU に対するAIモデルの妥当性の判断
信頼性評価レポートに記録された結果に基づいて、モデルがCOUに適しているかどうかが判断される。スポンサーまたはFDAの
いずれかが、モデルのリスクに対してモデルの信頼性が十分に確立されていないと判断した場合、いくつかの対応が考えられる。
(1) スポンサーは、関心のある質問に答えるために、AIモデルからの証拠と併せて追加の種類の証拠を組み込むことで、モデルの
影響度を下げることができる
(2) スポンサーは、信頼性評価活動の厳密さを高めたり、追加の開発データを追加してモデルの出力を増強したりすることができる
(3) スポンサーは、リスクを軽減するために適切な管理を確立することができる
(4) スポンサーは、モデリングアプローチを変更することができる
(5) スポンサーがAIモデルのアウトプットの信頼性がCOUに不十分であると判断した場合は、モデルのCOUは拒否されるか、
反復的に修正される。
B.特別な考慮 : 特定の使用状況におけるAIモデルのアウトプットの信頼性のライフサイクル全体の維持
偶発的か意図的かを問わず AIモデルの変更を管理し、モデルがそのCOUの医薬品ライフサイクル全体にわたって使用に適した
状態を維持する必要がある。
AI ベースのモデルは、データ駆動型であり、自己進化型 (つまり、人間の介入なしに自律的に適応できる) であるため、モデルの
インプットの変動や変更に非常に敏感になる可能性がある。AIモデルは進化し続ける性質があるため、モデルが使用に適した状態
を維持し、必要に応じて適切な変更が加えられていることを確認するために、モデルのパフォーマンス指標を継続的に監視する必要が
ある。
モデルのライフサイクル全体にわたる監視レベルは、リスクベースである必要がある (つまり、モデルのリスクと COU に見合ったレベル)。
変更の範囲とモデルのパフォーマンスへの影響に応じて、COU のモデルの再トレーニングと再テストなど、信頼性評価計画のいくつか
のステップを再実行する必要がある場合がある。さらに、モデル変更の影響(つまり、モデル変更がモデルのパフォーマンスに影響を
与えるかどうか)に応じて、規制要件に従って変更を当局に報告する必要がある。
C. 早期の関与
FDA はスポンサーやその他の利害関係者に対し、(1) モデルリスクと COU に基づいて提案されたモデルの適切な信頼性評価活動
に関する期待を設定し、(2) 潜在的な課題とその解決方法を特定するために、FDA と早期に関与することを強く推奨する。