HIROTSUバイオサイエンスの言う《感度》とは何か
株式会社HIROTSUバイオサイエンスにより展開されている、線虫を用いた がん検査であるN-NOSEに関し、『臨床核医学』誌2024 Vol.57 No.5において、その性能が調査研究によって評価された事を紹介する記事が掲載されました。
『臨床核医学』誌(2024 Vol.57 No.5)
【PDF】https://www.rinshokaku.com/magazines/2024/57_5.pdf
当該研究は、施設を対象とした、回顧的なアンケートを用いた調査研究である事などから、バイアスに注意して検討する必要があり、N-NOSEの性能について決定的な評価をおこなえるようなものではありませんが、その結果は、
少なくともN-NOSEが高性能であるとは言えない
甲状腺がんなどのリザーバー(人口における、症状をあらわさない疾病を持つ貯蔵庫)を掘り起こしている可能性がある
などを示唆しています。N-NOSEに限らず、推奨されていない体液生検(リキッドバイオプシー)を受けて陽性になり、それを契機として色々のがんを検索するのを希望すれば、対象としていないものが発見される場合もあるでしょうし、その帰結は当然、検査の性能を高める要因として考慮して良いものとはなりません。
この研究がXで話題になり、N-NOSEについて色々と(主にネガティブに)言及されていますが、その中で、内科医の名取宏氏が、次のポストをしていました。
名取氏はここで、HIROTSUバイオサイエンスによる記者説明会で用いられた資料の画像に着目しています。
その画像は、N-NOSEと既存の検査との比較を表にしたものをスライドで映している場面です。表には、各がんの検査について、感度と特異度、陽性適中度(スライドでは陽性的中率)が掲載されています。
それら指標の数値について、名取氏は疑問を呈しておられます。特に、子宮頸がんの感度に着目し、なぜそのような数字なのか、と書かれています。
その数値は2.5%です。ある状態を持つものが検査を受けた時に陽性になる確率を示す感度ですが、実用されているものとしては考えられないような低い値です。名取氏が、こんな数字がどこから来たのかと疑問を投げかけるのは当然の話です。
この数値は、N-NOSEの性能を評価したとする論文に掲載されています。
『A non-invasive screening method using Caenorhabditis elegans for early detection of multiple cancer types: A prospective clinical study』
https://www.sciencedirect.com/science/article/pii/S2405580824001420
説明会のスライドも同じですが、国立がん研究センターのがん登録・統計から算出したとしか書かれていません。ここから先は推測するしかありませんが、一体これらの数値がどこから来たのか、興味深いので探索を試みます。
がん検診には、プロセス指標というものがあります。これは、実地でのがん検診の性能評価をおこなうために用いられる、実際の検診のデータを使って各指標を算出したものです。いわゆるリアルワールドデータに相当するものと言えます。
このプロセス指標について、データが公開・配布されています。
上記ページの3.がん検診のプロセス指標(住民検診)の所に、
全国
都道府県別
性別
年齢階級別
これらの属性ごとに集計したプロセス指標のデータが、Excelファイルで公開されています。これを参照します。
このExcelファイルは、いわゆる5大検診に関するプロセス指標がまとめらています。ここで、
最新年のデータでフィルター
全国のデータでフィルター
男女計または女でフィルター(乳がんと子宮頸がんは女性)
して、指標の数値を確認しました。すると、興味深い事が見いだせましたので、それを示します。なお、見やすくするため、テーブル化してフォントを変更してあります。
乳がん検診のデータです。0.34となっています。スライドでは33.5%でしたので、100倍すれば近い値になります。
子宮頸がん検診の場合、2020年は高度異形成以上の発見率であるため、2019年も含めています。スライドでは0.25%でしたが、上図の がん発見率は0.03なので、これも100倍すると近いです。他のがんについても、同様に見ていきます。
これらの数値を、スライドのものと比較してみましょう。左から、スライド(感度)→プロセス指標(がん発見率)を並べます。
乳がん:33.5↔0.34
子宮頸がん:2.5↔0.03
大腸がん:24.0↔0.24
胃がんX線:12.6↔0.12
胃がん内視鏡:37.5↔0.38
肺がん:5.7↔0.06
数値としては似通っています。プロセス指標の単位は%なので、100倍すれば似るという事です。無理やりな比較のようにも思えますが、胃がん検診については、各検査法それぞれの数値が似ています。他に色々調べてみても、同じような数値になる所が見つからず、計算方法も見当がつかないのです。
それくらい、何でそのような数値を当てはめたのかが不明なものです。
そもそも、国立がん研究センターのサイトには、各検診の感度について掲載されています。引用しましょう(感度の数値には引用者により強調を施す)。
※同カテゴリーの記事において、乳がん検診のみ具体的な数値が掲載されていない
スライドとは全然異なります。おそらくHIROTSUバイオサイエンス側としては、実社会データ、すなわちリアルワールドデータである事を主張したいのでしょう。実験的方法で見出される性能よりリアルワールドデータでの指標は低く出る傾向があるので、実際のデータによってそれを評価したと言いたいのだと思われます。しかるに、それならそれで、どのように算出したかは明示して欲しいものです。どこかには書かれているのかも知れませんが、前掲の論文でもそれは明らかにされていません。
通常、リアルワールドデータによって検査性能を評価する場合、ある人口について複数回の検診を実施して、誤陰性(偽陰性)などを推計しながら検討していきます。それはかなり難しいものです(久道『がん検診判断学』が参考になります)。
ところで、スライドには、子宮頸がん検診の感度が2.5%で特異度が97.9%、そして、陽性適中度が1.2%と書かれています。適中度がそうなるには、子宮頸がんの時点保有割合は1%くらいの必要があります。100人に1人が保有している計算です。どのようにそれを設定したのかも、よく解りません。
肺がんも同じですね。子宮頸がんと同じ割合が肺がんを持つ計算です。
乳がんもおな…あれ?
……保有割合が同じじゃないですか。どういう事? 何だか頭が痛くなってきました。
この記事の題は、HIROTSUバイオサイエンスの言う感度とは何か、というものですが、結局それは解らずじまいでした。
もし、ここで言及した数値について、どのように算出したのかの具体的な情報をお持ちのかたがおられたら、教えていただけるとありがたいです。