エムスリーテックブログ

エムスリー(m3)のエンジニア・開発メンバーによる技術ブログです

間質性肺炎を検出するAIを開発し、その有効性を検証した研究を論文化しました

こんにちは、AI・機械学習チームの浮田です。最近、私が筆頭著者の論文が公開されたので、今回はその紹介をします。

発表した論文はこちらです:

www.ncbi.nlm.nih.gov

この論文では、

  • 胸部Xç·š (レントゲン) から間質性肺炎を検出するAIの評価を行いました。
  • 結果、このAIを使うことで医師の読影成績が統計的有意に改善しました。
  • このAIを使うことで間質性肺炎の見落としを減らすことができることが期待されます。

エンジニアリンググループで論文を書くのは珍しい機会でしたが、査読対応など大変な時も経て無事公開することができました。

図1. 今回開発・検証した医療AIの実際の画面。プレスリリースより転載

今回開発・検証した医療AIの概要

「線維化を伴う間質性肺炎」(以下、間質性肺炎) という肺疾患の有無を、胸部X線 (レントゲン) 画像から判断するAIになります。以前のブログで紹介したモデルをベースに改善を加え、また医師が診療中に見る画面上に予測結果が表示されるようにしています。

実際の画面は図1のような見た目になっており、AIが解析した間質性肺炎の確信度 (0以上1以下の値) がILD Score*1として右上に表示されます。また、この確信度が閾値を超えた場合にはアラートマークが左上に表示されるようになっています。

このようなAIを私達のチームで開発し、本AIは現在、BMAXという名前の医療機器として製造販売承認を得て、実際に提供され始めています。詳細はプレスリリースをご参照ください。

有効性を検証するための臨床試験

目的

このように開発したAIですが、実際に使ってもらうにはその有用性を示す必要があります。有用性を示すには「AI単体の予測精度」よりも「AIを使った医師の読影成績」が最も重要になります。

例えば、仮に「AI単体の予測精度」が95%と高くても、そもそも医師が99%の精度で読影できている状況ならそのAIの必要性は小さいかもしれません。逆に医師の精度が70%の状況なら有用かもしれません。このように、「AI単体の予測精度」そのものよりも、実用上どれだけ有用かの方が大事になります。これはちょうど、推薦システムなどにおいて予測精度そのものだけでなく「そのモデルを使うことでビジネス指標 (Click-through rateなど) がどれぐらい向上するか」が重要なのと似ていると思います。

そのため今回、実際の医師にAIなし・AIありで胸部X線画像を読影していただき、その読影成績の差を統計的に評価する臨床試験を行いました。

データセット、実験設定

データセットには120枚の胸部X線画像 (うち24枚が間質性肺炎の兆候あり、96枚が間質性肺炎の兆候なし) を用意しました。各画像に対して25名の医師 (5名の専門医と20名の非専門医) それぞれに、

  • まずAIなしの状態で間質性肺炎の兆候があるか無いかを判断
  • 次にAIありの状態で同様に判断

していただきました。このように記録したデータを統計的に解析しました。

結果

非専門医におけるAIなし時、AIあり時のROC-AUC、感度、特異度の平均は次の表のようになりました。AIなし時に比べてAIあり時ではROC-AUCが統計的有意に改善しました。また感度はAIありで有意に改善した一方、特異度はほとんど変わらない結果となりました。このことから本AIを使うことで、間質性肺炎の見落としを減らすことができることが期待できます。

指標 AIなし AIあり P値
ROC-AUC 0.795 0.825 0.005
感度 0.744 0.802 0.003
特異度 0.846 0.847 0.690

さらに層別解析を行うと、間質性肺炎が軽度な場合に感度の改善効果が顕著に見られることも分かりました。

これらの結果をまとめて、冒頭に示した論文に発表しました。詳細な層別解析や、専門医に対する解析なども行っていますので、興味がある方は論文をご覧ください。

評価方法の詳細

この試験では、AIによって「非専門医が間質性肺炎の有無を判断するROC-AUCが統計的に改善するか」を主な評価指標としました。

統計学や機械学習においてROC-AUCは、連続値の予測値を正解ラベルと比較する際に用いられることが一般的です。今回の試験では各医師の判断は「間質性肺炎の兆候のあり」「なし」の二値であり、これを正解と比較する状況なので、ROC-AUCの使い方としては少し特殊な使い方となっています。ただ、通常の連続値の場合のROC曲線とAUCの定義を拡張することで二値の場合にも用いることができます (図2)。そして実は、この場合のROC-AUCは感度 (sensitivity) と特異度 (specificity) の平均と等しい値になります。

図2. 左:一般的な連続値の予測値に対するROC-AUC、右:今回の二値に対するROC-AUC

このようなROC-AUCをAIなしの時、AIありの時の各医師に対してそれぞれ計算し、AIなしの時の平均値とAIありの時の平均値の差を、Wilcoxon sign-rank testにより検定しました。

なお他の評価指標としては、感度 (= recall) や特異度、F1 scoreなどの指標が候補に挙がるかと思います。しかし、

  • 感度と特異度はトレードオフであり、片方の指標だけで性能を測ることはできないという欠点があります。
  • F1 scoreは感度と陽性的中率 (= precision) の調和平均です。陽性的中率は今回の120枚のデータセット中の陽性率に大きく依存します。例えば病院の環境 (例えば大学病院かクリニックか) が異なると陽性率は大きく変わり、陽性的中率、引いてはF1 Scoreの値も変わることが想定され、扱いにくいという欠点があります。

以上から、二値の場合のROC-AUCは特殊ですが、今回はROC-AUCを用いることにしました。ちょうど感度と特異度の平均と言う意味でも、トレードオフに左右されにくいがシンプルな指標かと思われます。

感想

今回エンジニアリンググループでは珍しく、論文を発表する機会に恵まれました。査読対応など大変なこともありましたが、無事発表できてよかったです。共著者の皆様、特に札幌医科大学の皆様にはとてもお世話になりました。

またROC-AUCの考え方や試験設計や検定方法など、統計的な考察をする機会も多く学びにもなりました。

We're hiring!

AI・機械学習チームでは、統計や機械学習を用いて様々な医療課題に取り組んでいます。興味を持った方は、次のリンクからご応募お待ちしています! インターンも通年募集中です!

jobs.m3.com

*1:ILDは間質性肺炎を表します