文字サイズ:
  • 標準
  • 拡大

メディカルトリビューン

メディカルトリビューン

ChatGPTの自己診断、再現性低く誤診リスクも 同じ質問でも、日によって違う診断結果

  • このエントリーをはてなブックマークに追加
  • チェック

 急速に浸透しつつある対話型人工知能(AI)サービスChatGPTは、回答が必ずしも正確でないことが問題になっているが、これを用いて受診前に自身の症状について自己診断を行う患者が増加している。東京医科歯科大学大学院整形外科学の黒岩智之氏らは、ChatGPTによる一般的な整形外科疾患における自己診断の信頼性を検証した結果、同じ質問でも日によって診断結果が異なるなど正答率および再現性の低さが示されたことをJ Med Internet Res( 2023;25:e47621 )に発表した。

疾患に特徴的な症状や平易な質問を入力

ChatGPTの自己診断、再現性低く誤診リスクも 同じ質問でも、日によって違う診断結果

※画像はイメージです

 ChatGPTは、医療補助用にデザインされた生成AIではないものの、米国の医師資格試験で合格ラインに近い正答率を示しており、医師による鑑別診断のサポートや医学学習支援への活用が期待されている(関連記事「 ChatGPTが米医師資格試験で合格ライン 」)。一方で、患者によるChatGPTを用いた自己診断が健康上の利益をもたらすかは不明である。

 そこで黒岩氏らは、ChatGPT(ver.3.5)による自己診断の正答率、再現性、受診勧奨の程度について検証した。診断の対象は、一般的な整形外科疾患である手根管症候群、頸髄症、腰部脊柱管狭窄症、変形性膝関節症、変形性股関節症の5疾患。試験は5日間(2023年4月30日~5月4日)で行い、各疾患について特徴的な症状をChatGPTに入力して平易な質問をした。期間中は毎日同じ質問を行った。

 回答は、〈1〉診断名が1つだけの「単独診断」、〈2〉複数の診断名を挙げつつ、最も可能性の高い診断名を示した「階層的診断」、〈3〉複数の診断名を階層性なく示した「複数診断」―に分類した上で、単独診断または階層的診断の最上位の診断が正しい場合を「正解」、階層的診断の最上位以外の答えの中に正しい診断が含まれていた場合を「部分的正解」、正しい診断が含まれていない場合を「不正解」と判定。5日間の平均正答率(部分的正解を除く)や誤答率を評価した。

 評価者は5人で、Fleiss κ係数を用いて試験日間および評価者間の再現性を評価。0未満を一致しない、0.01~0.20をわずかに一致、0.21~0.40をだいたい一致、0.41~0.60を適度に一致、0.61~0.80をかなり一致、0.81~1.00をほぼ一致と定義した。

 また、同氏らはChatGPTの受診勧奨の程度も評価。「医療」「医師」「セルフケア」などの単語と「必須」「推奨」といった表現を組み合わせた文を強力な推奨と定義した。

頸髄症の正答率は4%

 検討の結果、正答率は手根管症候群が100%、腰部脊柱管狭窄症が96%、変形性股関節症が68%、変形性膝関節症が64%、頸髄症が4%だった。

 試験日間の再現性は手根管症候群が1.0、腰部脊柱管狭窄症が0.7、変形性膝関節症が0.6、変形性股関節症が0.6、頸髄症が0.15だった。評価者間の再現性は、手根管症候群が1.0、腰部脊柱管狭窄症が0.64、変形性股関節症が0.04、頸髄症が0.1、変形性膝関節症が-0.12だった。

 受診勧奨を明示していた回答は12.8%程度だった。

 黒岩氏らはさらに、質問の仕方を変えて正答率を検証したところ、頸髄症を除きいずれも高い正答率が示された。頸髄症は約半数が部分的正解を示した。

誤診や使用者へ混乱を与えるリスクも

 黒岩氏らは、今回検証した5つの疾患のうち頸髄症の正答率が最も低かった理由として、「多病巣性の症状であり、このような広範な疾患は特定できない可能性がある」と指摘した。

 その上で「ChatGPTは自己診断に関して再現性が低く、誤診や使用者を混乱させるリスクがあることを考慮すると、医療機関への受診勧奨を提示することを目標とすることが重要だ」と結論。「今回明らかになったChatGPTの医療利用の問題点を、患者への啓発やソフトウェアの開発・進化の土台して生かすことを期待している」と展望した。(植松玲奈)

  • このエントリーをはてなブックマークに追加
  • チェック

medical-tribune-logo_02

メディカルトリビューン
メディカルトリビューン はこちら

メディカルトリビューンの一覧を見る

コメントを書く

※コメントは承認制で、リアルタイムでは掲載されません。

※個人情報は書き込まないでください。

必須(20字以内)
必須(20字以内)
必須 (800字以内)

編集方針について

投稿いただいたコメントは、編集スタッフが拝読したうえで掲載させていただきます。リアルタイムでは掲載されません。 掲載したコメントは読売新聞紙面をはじめ、読売新聞社が発行及び、許諾した印刷物、読売新聞オンライン、携帯電話サービスなどに複製・転載する場合があります。

コメントのタイトル・本文は編集スタッフの判断で修正したり、全部、または一部を非掲載とさせていただく場合もあります。

次のようなコメントは非掲載、または削除とさせていただきます。

  • ブログとの関係が認められない場合
  • 特定の個人、組織を誹謗中傷し、名誉を傷つける内容を含む場合
  • 第三者の著作権などを侵害する内容を含む場合
  • 企業や商品の宣伝、販売促進を主な目的とする場合
  • 選挙運動またはこれらに類似する内容を含む場合
  • 特定の団体を宣伝することを主な目的とする場合
  • 事実に反した情報を公開している場合
  • 公序良俗、法令に反した内容の情報を含む場合
  • 個人情報を書き込んだ場合(たとえ匿名であっても関係者が見れば内容を特定できるような、個人情報=氏名・住所・電話番号・職業・メールアドレスなど=を含みます)
  • メールアドレス、他のサイトへリンクがある場合
  • その他、編集スタッフが不適切と判断した場合

編集方針に同意する方のみ投稿ができます。

以上、あらかじめ、ご了承ください。

最新記事