5. 支援システム等で想定される主な課題と解決の方向性
(1)ブラックボックスとしての性質
機械学習、特に深層学習は、その特性上、ニューラルネットワークによる判断の過程がブラックボックスであり、アウトプットの判断根拠を明確に示すことが困難な場合がある。このため、通常の医療機器ではその性能確保のために示すことが求められる「動作原理」の明示が困難となる。そのため、承認審査においては、診断アルゴリズムを詳細に精査するというよりは、一般的な医療機器プログラムの評価と同様、そのインプットに対して所要のアウトプットが得られているかを確認することに重点を置き、その性能を評価することが適当と考えられる。
また、動作原理及びアルゴリズムの詳細を記述することが困難であるため、性能の確認が行われた事例以外(例えば、開発時の学習データセットに含まれていなかった希少事例)での挙動等が想定しにくいことも考えられる。このようなリスクに鑑み、機械学習、特に深層学習を利用した支援システム等においては、その性能を確保するために、使用方法及び目的に応じて、製造販売業者が対象疾患の検出率、偽陽性率、偽陰性率、検出に要する時間等、性能に係る値を適切に規定し、その性能が常に担保されていることを示すことが必要となる(6(3)項を参照)。
支援システム等が想定外の挙動を示した場合に、使用者に対して当該挙動を通知する仕組みも必要となる。例えば、想定外の挙動が判断可能な使用者のみに使用を許可する等で使用者側に一定の要件を求める、又は臨床での使用状況を逐次フィードバックすることで、製造販売業者側が性能検証可能となる仕組みを構築する等、支援システム等の目的に応じた適切な方策を用意することが望ましい。(6(4)項を参照)。
想定外の挙動、誤判定等を完全に無くすことは極めて難しいが、そのような情報を収集
し、対策を講じることができるような運用方法もあらかじめ考慮しておく必要がある。
(2)性能変化
支援システム等においては、人工知能技術を利用することで市販後学習による診断アルゴリズムの変化を受けてその性能が向上することが期待される反面、学習の内容等によっては意図しない性能変化が生じ、当初規定していた性能を下回る可能性も否定できない。このような利点とリスクとを勘案し、支援システム等には、継続的な性能検証によるほか、学習用データの要件や学習のプロセス等を規定し、学習の品質を確保するための対応策が求められることになる。
1) 継続的な性能の検証方法
臨床使用に伴って市販後学習が行われ、性能が連続的又は相当程度高い頻度で変化する場合には、支援システム等の品質、安全性及び有効性を確保する上で、性能が変化するたびに検証する必要がある。特にその内容、プロセス管理に加え、変化した性能の検証及びその管理が重要となる。このことを踏まえ、あらかじめ市販後に生じ得る性能変化水準を臨床上許容される範囲かつ統計学的な妥当性に基づいた範囲で目的に応じて規定しておくこと等とともに、その機器に適用可能な検証方法、変化した性能が規定された範囲を逸脱した際の対策等を定めておくことが求められる(6(3)、6(4)項を参照)。また、検証に使用したデータについては、入手元を明らかにした上でその使用根拠や妥当性を
示すことが求められる(6(2)2)項を参照)。
2) 性能変化に伴う品質確保
人工知能の性能向上には、その人工知能の学習方式に適した市販後学習が必須であることから、その学習方式を明確にした上で、使用した市販後学習データの詳細を示すことが求められる。(6(2)2)項を参照)。
支援システム等においては、まず、一定量蓄積した臨床データを市販後学習データとして使用することで性能の変化を段階的に行う場合が考えられるが、その場合には、基本的にその性能変化のための学習及び性能検証は製造販売業者が実施することとなり、市販前に求められる要件と同様に性能変化後の品質を確保することが求められる(6(3)1)項を参照)。
一方、市販後学習により性能が連続的又は相当程度高い頻度で変化する機器の場合、製造販売業者の意図に反してその性能が低下し、臨床上許容される水準を下回る可能性がある。このような問題を防ぐために、原則、使用者はネットワークを介して支援システム等と接続する等、人工知能は製造販売業者が管理した上で、当該支援システム等の目的及びリスクを勘案した検証方法や対策を講じることが求められる(6(3)2)②項を参照)。 性能が変化した支援システム等の品質確保に係る作業は製造販売業者が実施することとするが、品質確保の目的で、使用者による市販後学習機能を有さない、誤使用や適応外使用を防止するため使用者を対象としたトレーニングを実施する、性能が下限以下となった場合の対策を使用者側の端末にも施す等、その支援システム等のリスクに応じて必
要な追加対策を施すことが望ましい(6(4)項を参照)。
3)薬事上の手続きにおける考え方
一般的には支援システム等の性能を向上させた結果、臨床上の有効性が向上する等製品の品質、有効性または安全性に影響を及ぼす場合、薬事上の手続きが必要になる場合があるが、その要求範囲は性能変化の内容及びその変化に伴うリスクを勘案した設定が必要となる。
性能向上に係るバージョンアップが新規製品となる、又はその適用に費用が発生する可能性があることから、その性能変化は対象となり得る販売後の製品全てに適用されず、同じ製品であってもバージョンの異なるものが市場に存在することになる可能性も考えられる。このような、人工知能の流通体系の特殊性を考慮しながら、バージョンアップに
関するフォローアップ体制や薬事上の効率的な手続きについても検討が必要になる。
(3)責任の所在
人工知能を利用した医療機器においては、その使用に伴う責任の所在が曖昧になることについての懸念が議論されている。特に、支援システム等においては、その目的が「診断支援」であるにもかかわらず、医師が最終診断まで委ねてしまう危険性を含んでいる。よって、支援システムの保守、設計・仕様上の不具合や故障等のトラブル対応においては、通常の医療機器と同様、製造販売業者が責任を負うことは変わらないが、支援システム等の使用目的、使用方法等を使用者に対して明らかにし、使用者に対するトレーニング等を実施する等、適正使用のために必要な方策を検討し、実施の実効性を担保する必要がある。
(6(4)項を参照)。なお、平成 30 年 12 月 19 日付け医政医発 1219 第 1 号厚生労働省医政局医事課長通知「人工知能(AI)を用いた診断、治療等の支援を行うプログラムの利用と医師法第 17 条の規定との関係について」において、当該プログラムを利用して診断、治療を行う主体は医師であり、医師がその最終的な判断の責任を負うことが示されている
ことも留意されたい。
6. 評価に際して留意すべき事項
(1)基本的考え方
本評価指標で対象とする支援システム等は、その特性上、通常の医療機器と異なり、原理(実装する検出・診断アルゴリズム等)や設計仕様等のみで性能を確保することが難しいことから、性能に影響する要素、効果を確認できる範囲や限界等を規定する必要がある。当該要求事項を達成するためには、医学的かつ統計学的に妥当な方法で、それらを規定し、支援システム等の性能を検証することが求められる。なお、支援システム等自体の品質、安全性及び有効性を確保するために必要となる評価は、原則として前出の「コンピュータ診断支援装置に関する評価指標」を参考に、目的に応じた性能水準を設定の上、実施することになる。 上述した内容を考慮した上で、現時点の科学水準を基に、本評価指標の対象となる支援システム等の評価において特に留意すべき点を示す。
(2)品目の検出・診断の原理、学習、情報セキュリティ等に関する基本的事項
1) 検出・診断の原理(アルゴリズム)
具体的にその記述が可能な検出・診断アルゴリズムにおいては、従前通り、そのアルゴリズムとプログラム概要を示すことが求められる。深層学習のように処理工程がブラックボックス化する原理を用い、承認申請時に検出・診断アルゴリズムを示すことが困難な場合には、設計開発時の検出・診断用ネットワーク構造とプログラム概要を示す必要がある。なお、技術の進展等によりブラックボックス化したネットワーク構造等の振る舞いが説明
できるようになった場合には、可能な限りその情報を示すことが求められる。
2) 学習
本評価指標が対象とする支援システム等は、適切な学習データを使用した人工知能の学習によりその目的を達成するために必要となる性能を有することが求められる。よって、対象とする支援システム等の機構や規定された性能等に応じて、以下の項目例を参考にして必要な項目について内容を明確に示し、またそれらを使用した根拠及び妥当性を示す必要がある。
・ 学習アルゴリズムとプログラム概要
(教師あり、半教師あり、強化学習、自己学習、その他等を明確にすること)
・ データ(学習データ、バリデーションデータ注1)及びテストデータ注2)について、以
下を参考に必要な項目を明記すること)
注1) バリデーションデータ:機械学習アルゴリズムのハイパーパラメータ(例:サポートベクターマシンの目的関数を決定するパラメータ、深層学習のネットワークの層数、特徴マップ数、畳み込みのフィルタサイズ、学習回数等)を決定するためのデータ
注2) テストデータ:システムの性能を評価・検証するためのデータ
▶データソース(取得及び管理方法の明確化を含む。特に、市販後に支援システム等の使用に伴い取得した 画像等を市販後学習データとする場合には、対象となる患者から同意を取得する方法も含む。)
▶画像データ取得時の撮影パラメータ
▶紐付けした臨床データの種類注3)(アノテーション(例:病変等の位置やサイズ
(ラベル画像も含む。)、良悪性の鑑別結果)も含む。)
▶ 臨床画像データ以外のデータ使用の有無注4)(Data Augmentation 等の目的で作成したコンピュータシミュレーションやファントム使用による画像データ等)
▶ 画像データの枚数、サイズ、濃度レベル数等
▶学習前に加工(例:匿名化)している場合にはその処理方法
▶臨床データの最終判断を行った医師等
▶臨床データ以外のデータを使用した場合は、その最終判断を行った責任者等
▶テストデータを学習のプロセスから完全に切り離して管理するための方策
注3) これまでの医用画像診断支援システムは医用画像のみを用い、臨床的信頼度が高いアノテーションを用いて設計することがほとんどであった。しかし、技術の進歩により、近年では、学習データとして自然画像や人工画像、さらには紐づけされた臨床情報の信頼性が低いデータ(Weak label データ)を用いることが可能となってきたが、このようなデータを利用する場合は、その使用根拠及び妥当性を示す必要がある。また、テストデータに関する各種留意点に関し
ては、その評価段階に応じて6(3)項を参照すること。
注4) 特に転移学習の場合には、自然画像や別の医用画像、さらには人工画像等を学習データとして用いることが想定される。自然画像を用いた場合には画像中の対象部分、種類及び枚数等、別の医用画像を用いた場合には通常の医用画像を使用した場合と同等の事項、人工画像の場合にはその作成方法等について、
その詳細を示すこと。
学習において使用する画像等をデータベース等から入手して使用する場合は、その妥当性を確認することが求められる。以下に、データベース等に関して承認申請時に記載が必要と考えられる点を例示する。なお、記載すべき項目は、データベースごとに異なるため、適切に選択、追加すること。
・ データベース運営者(学会、認定匿名加工医療情報作成業者等)の概要、組織体制等
・ 運営者が所有する事業計画書
・ 運営者が外部に委託している業務内容
・ データベースに保有するデータの種類
・ データベースの概要及び設計書
・ データ管理に係る各種手順書とその運用状況 等
上記の学習にかかわる全ての項目については、設計開発時の学習と市販後学習で共通の項目、相違する項目を区別して明記する必要がある。例えば、設計開発時の学習と市販後学習で学習アルゴリズムが異なる場合は、それぞれについて明らかにする必要がある。また、市販後学習により機械学習アルゴリズムのハイパーパラメータも再決定される場合は、変化しうる範囲をあらかじめ規定したうえで、そのハイパーパラメータの変化が規定範囲内となることを明らかにすることが求められる。さらに,市販後学習後のネットワークの変遷については性能変化ごとに必要な記録を保存し、後日検証可能な状態にすることが必要となる。
3)使用環境及び情報セキュリティ
人工知能技術の利用において、その人工知能が使用者のコンピュータ上にあるのか又はネットワークを介して接続しているのかを明確にした上で、次の項目を示すことが求められる。
・ 画像撮影装置からのデータ転送方法
・ 使用に必要なソフトウェアのインストール等による画像撮影装置又はその他のソフトウェアへの干渉
・ 支援システム等がインターネット等外部機器と接続されている場合、平成 27 年 4 月 28 日付け薬食機参発 0428 第 1 号・薬食安発 0428 第 1 号厚生労働省大臣官房参事官(医療機器・再生医療等製品審査管理担当)、厚生労働省医薬食品局安全対策課長連名通知「医療機器におけるサイバーセキュリティの確保について」を参考にサイバーセキュリティ対策に必要な措置を講じていること
・ 支援システム等を使用して得られた臨床情報を市販後学習データとする場合は、以
下のガイダンス等を参考に適切な管理を行い個人情報の保護に留意すること
▶「医療・介護関係事業者における個人情報の適切な取り扱いのためのガイダンス」平成 29 年 4 月 14 日、個人情報保護委員会、厚生労働省
▶「医療情報システムの安全管理に関するガイドライン第5版」平成 29 年 5 月、
厚生労働省
注) 必要に応じて、個人情報保護法及び次世代医療基盤法も参考にすること
4)併用する画像撮影装置等の条件
支援システム等が所定の機能を達成するにあたっては、あらかじめ併用する画像撮影装置で得られた医用画像データのフォーマットや解像度等が当該システム等の要求を満たす必要がある。また、市販されている特定の画像撮影装置全てに適用することが可能なものであっても、支援システム等の性能は、人工知能の学習に使用する医用画像データの撮像条件や教師データの作成方法等に影響されるため、必要に応じてそれらについて規
定する必要がある。
(3)安全性、品質及び性能評価
1)承認申請時
支援システム等の評価においては、対象となる機器の目的やリスクに応じた評価が必要なため、品質、安全性及び有効性の評価に必要な規格値(検出率等)を明確にするとともに、その妥当性を示した上で適切な評価を行うことが必要である。
各種評価においては、6(2)項に記載した項目以外に支援システム等に特有の問題として、
・ 接続する画像撮影装置の機能(特に既存の画像撮影装置を利用可能なシステムの場合)
・ 責任者を含めた性能検証方法の明確化(治験による性能検証の場合は、「正解」となる最終的な確定診断を得るまでのプロトコール、後向き検証の場合は検証用テストデータに関して、その妥当性を示すために必要な情報を示すことが求められる)
・ 性能検証に使用したテストデータの種類、入手元及び妥当性(必要に応じて管理方法等も明らかにすること)
・ 市販後に生じ得る性能変化の範囲の規定(検出率の下限、偽陽性率及び偽陰性率の上限設定等)及びその規定根拠となる医学的又は統計学的データ等
・ 市販後に性能変化が発生しても、有効性及び安全性が確保されていることを確認するための方策(学習させるデータの入手方法、変化後の性能の検証方法等)
・ 性能変化に伴って生じ得る不具合 等、その目的に応じて考慮すべき項目を明確にする必要がある。
特に、性能検証用のテストデータセットは、学習データやバリデーションデータとは重複しないことが求められる一方、対象とする母集団の特徴を考慮して、十分な説明が可能となる質と量のデータが必要となる。しかしながら、機械学習の方法、目的及び対象に応じてその必要数は異なり一律に定義することは困難であるため、支援システム等の性能評価に使用したデータセット及び方法論を記載するとともにその妥当性検証スキーム等
を個別に記載することが求められる。
2)市販後
市販後、支援システム等に発生する性能変化に関しては、承認申請時に規定された性能検証方法に従い、市販後学習データにより変化した性能等が臨床上又は統計学的な観点からあらかじめ規定された範囲内を満たし、品質が確保できることを確認の上、その妥当性検証を行うことが求められる。
支援システム等を既存の画像撮影装置に接続して使用する場合、画像撮影装置の性能に依存して入手できる画像データの質が多様となることが想定される。この場合には、得られた画像データが学習データとして使用できる条件を規定する必要があり、その条件を満たさないデータは学習データとしないための対策が必要となる。また、性能検証及びそのために用いるテストデータセットに関する考え方は、基本的に前項と変わらない。加えて、市販後学習データ及びテストデータの臨床最終判断を行った医師等を明確にする必要がある点も、前項と変わらない。
なお、人工知能にネットワークを介して接続する支援システム等において、使用者に必要な性能及び動作の詳細を漏れなく把握できるよう、性能変化が生じた際には使用者にその旨を通知するシステムを有することが望ましい。
以下に、性能変化の実現方法ごとに必要となる留意点を示す。
① バージョンアップごとの段階的な性能変化を意図する場合
製造販売業者が臨床現場で入手したデータ等を定期的に収集し、データの偏り等にも配慮しながら適切な形で人工知能に市販後学習させることにより支援システム等の性能を変化させる場合がこれに該当する。なお、臨床現場で入手したデータ以外を利用することも想定されることから、それらの利用においては承認申請時に明記するとともにその妥当性を示すことが求められる。
この場合、変化した性能の評価や、その変化に伴う安全性及び品質の確保は製造販売業者によってバージョンアップごとに行うこととなるが、それらの評価にあたっては承認申請時と同様に前出の「コンピュータ診断支援装置に関する評価指標」を参考に行うこと。
また、支援システム等の性能変化において必要となる薬事上の手続きについては、システムの特性にも依存するため、想定可能な範囲については独立行政法人医薬品医療
機器総合機構と承認申請前に相談して決定しておくことが望ましい。
② 臨床使用に伴った市販後学習により連続的又は相当程度高い頻度でのバージョン
アップを意図する場合
支援システム等を臨床現場で使用した際に入手したデータを市販後学習データとして使用し、連続的又は相当程度高い頻度で性能を変化させる場合には、使用する人工知能は製造販売業者が一括して管理し、各支援システム等とネットワークを介して接続していることが想定される。この場合、自動的に追加されたデータを用いた市販後学習により変化した支援システム等の性能や品質があらかじめ規定された範囲に収まることが特に求められることから、その学習プロセス及びその管理方法を示すことが求められる。加えて、性能が規定範囲に収まることを検証するための機構をあらかじめ付与するとともに、製造販売業者で定期的にその性能検証を実施することが求められる。なお、当該バージョンアップの場合には、想定外の挙動、誤判定等の問題が生じる可能性
が高いため、その解決策(リスクマネジメント)を講じておくことが求められる。
(4)リスクマネジメント
1) 基本的考え方
支援システム等におけるリスクとしては、市販後学習の結果性能が変化し「人工知能が規定された変化範囲を逸脱した結果、誤った情報を提示すること」が挙げられる。バージョンアップごとの段階的な性能変化を意図する支援システム等の場合には、その性能変化によって生じた問題は製造販売業者が解決してから上市することが前提となるため、そのリスクは低い。一方、市販後学習による性能変化が直ちに実装されることで性能が連続的又は相当程度高い頻度で変化する支援システム等の場合には、上記リスクが生じる可能性があるため、そのリスクを回避するためのシステムが必要となる。
また、上記リスクに加え、適応外で使用した際には、使用者が支援システム等における想定外の挙動に気付かない可能性も増大することが考えられるため、適応外使用を防ぐ
方法を講じることが求められる。
2) 対策について
対策が必要となる支援システム等には、上記リスクを軽減するために、
・ 市販後学習データとする画像に関する詳細なログ(使用環境、診断結果、責任者等)を保存するための機能(6(2)を参照)
・ 支援システム等の内部データを利用した自己テスト等により、定期的に性能評価を行い、その時点での性能を使用者に示すことで最低限の性能を確保・確認できる機能
・ 上記機能により上記リスクが発生していることが確認された場合に、人工知能を市販時の状態に初期化又は変化直前の状態へと復元する機能
・ 上記リスク発生時に、必要に応じて、支援システム等を停止させる機能
・ 臨床での使用状況を逐次フィードバックして製造販売業者がその性能を適宜検証可能となる機能
等、当該支援システム等の承認申請時に確認された性能を確保するための機能、又は具体的な対策手順をその支援目的に応じて設定しておくことが求められる。
製造販売業者は、使用者は支援システム等の目的に応じた専門知識を有し、かつ、その使用等に関する教育(トレーニング)を受けた医師を始めとする医療従事者に限定され、確定診断、最終判断等、診療行為における最終判断は医師でなければならないことを使用者に明確にすることが求められる。加えて、使用者の誤使用や支援システム等の目的から逸脱した適応外使用を防ぐため、ユーザトレーニング等の適切な対策を講じておくことが求められる。なお、このユーザトレーニングは関連学会等と連携したものが望ましい。
7. 機器の特性に応じた追加留意事項(案)
(1) 市販後学習による性能変化が診断支援においてハイリスクとなる支援システム等の場合
例えば、病理診断においては、その診断が臨床における最終診断であることから、どのような形式であってもその性能が市販時から変化することは検出率及び正診率低下の可能性を含むこととなり臨床上高いリスクを伴うこととなる。このような支援システム等の場合、その品質、安全性及び有効性を十分に確保する必要があることから、現時点では、市販後学習プロセス、性能変化及びその検証には必ず病理専門医の関与を要求することが
望ましい。
(2) 支援システム等の対象画像が動画の場合
消化器内視鏡機器や超音波画像診断装置のように観察像が動画となる場合、人工知能に対する学習データはその動画をどのような形で利用したかを明確にする必要がある。よって、動画のフォーマットや取得方式を明示するほか、学習データへの変換方法を明らかにする必要が生じる。
また、当該支援システム等においては、動画の撮影条件及び質が撮像者の技能に左右されることから、学習データとして利用可能となる条件を規定するとともに、その妥当性を明らかにする必要がある。
以上
|