ホームページ > 記事 > テクノロジー周辺機器 > AI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵する
史上最高の AI スコアを誇る Google の新しいモデルが、米国医師免許試験の検証に合格しました。
さらに、科学的知識、理解、検索、推論などの能力においては、人間の医師のレベルに直接匹敵します。一部の臨床質疑応答のパフォーマンスでは、元の SOTA モデルを 17% 以上上回りました。
この開発結果が発表されるとすぐに、学術コミュニティで激しい議論が巻き起こり、業界の多くの人がため息をつきました。 、 ここです。
Med-PaLMと人間の医師との比較を見た多くのネチズンは、AI医師がその職に就くことをすでに楽しみにしていると表明しました。
このタイミングの正確さを嘲笑する人もいます。このタイミングは、ChatGPT のせいで Google が「死ぬ」だろうと誰もが思っていた時期と一致していました。
これがどのような研究なのか見てみましょう。
医療の専門的な性質により、今日の AI モデルは、言語をほとんど使用せずにこの分野に適用されています。これらのモデルは便利ですが、単一タスク システム (分類、回帰、セグメンテーションなど) に焦点を当てていること、表現力や対話機能が不足していることなどの問題があります。
大規模モデルの進歩により、AI医療に新たな可能性がもたらされましたが、この分野の特殊性から、虚偽の医療情報の提供など潜在的な危害についても考慮する必要があります。
この背景に基づいて、Google Research と DeepMind チームは医療 Q&A を研究対象とし、次の貢献を行いました:
彼らは、「医療上の質問に答える」というタスクは非常に難しいと考えています。質の高い回答を提供するには、AI が医学的背景を理解し、適切に思い出す必要があるからです。医学知識を理解し、専門家の情報から推論を行います。
既存の評価ベンチマークは、多くの場合、分類精度や自然言語生成指標の評価に限定されており、実際の臨床応用の詳細な分析は提供できません。
まず、チームは 7 つの医療質問応答データ セットで構成されるベンチマークを提案しました。
MedQA (USMLE、米国医師免許試験の問題) も含む 6 つの既存のデータセットが含まれており、検索された健康に関する質問で構成される独自の新しいデータセット HealthSearchQA も導入されています。
これには、健康診断、医学研究、消費者医療の問題が含まれます。
その後、チームは MultiMedQA を使用して、PaLM (5,400 億パラメーター) と、微調整された指示を備えたバリアント Flan-PaLM を評価しました。たとえば、タスクの数、モデルのサイズ、思考連鎖データの使用戦略を拡張します。
FLAN は、Google Research によって昨年提案された微調整された言語ネットワークです。一般的な NLP タスクにより適したものになるようにモデルを微調整し、命令調整を使用してモデルをトレーニングします。
Flan-PaLM は、MedQA、MedMCQA、PubMedQA、MMLU などのいくつかのベンチマークで最適なパフォーマンスを達成したことがわかりました。特に、MedQA (USMLE) データセットは、以前の SOTA モデルを 17% 以上上回りました。
この研究では、異なるサイズの 3 つの PaLM モデルおよび Flan-PaLM モデルのバリアント (80 億パラメータ、620 億パラメータ、5,400 億パラメータ) が検討されました。
ただし、Flan-PaLM には依然として一定の制限があり、消費者の医療問題への対処では十分なパフォーマンスを発揮できません。
この問題を解決し、Flan-PaLM を医療現場により適したものにするために、指示プロンプトを調整し、Med-PaLM モデルが誕生しました。
△例: 新生児黄疸が消えるまでどれくらい時間がかかりますか?
チームはまず、MultiMedQA の自由回答データセット (HealthSearchQA、MedicationQA、LiveQA) からいくつかの例をランダムに選択しました。
次に、5 人の臨床医のグループに模範解答を提示してもらいます。これらの臨床医は米国と英国に拠点を置き、プライマリケア、外科、内科、小児科の専門知識を持っています。最後に、指示プロンプト調整トレーニング用に 40 個の例が HealthSearchQA、MedicationQA、LiveQA に残されました。
Med-PaLM の最終的な効果を検証するために、研究者らは組織から 140 個のサンプルを抽出しました。 MultiMedQA は消費者の医療問題について言及しました。
そのうち 100 件は HealthSearchQA データ セットから、20 件は LiveQA データ セットから、20 件は MedicationQA データ セットからのものです。
これには、Med-PaLM を生成するための指示プロンプトを調整するために元々使用されていた問題は含まれていないことに注意してください。
彼らは、Flan-PaLM と Med-PaLM にこれら 140 の質問に対する回答を作成するよう依頼し、その後、専門の臨床医のグループに回答を求めました。
例として、「激しい耳の痛みとはどういう意味ですか?」と尋ねられた場合、Med-PaLM は、患者が感染している可能性のある病気を列挙するだけでなく、次のような現象があるかどうかも提案します。 :医者に行ったほうがいいよ。
耳の痛みは、中耳感染症 (中耳炎)、外耳感染症 (耳感染症)、耳垢の停滞など、いくつかの基礎疾患の兆候である可能性があります。また、脳腫瘍や脳卒中など、より深刻な病気の兆候である可能性もあります。
重度の耳の痛みが数日以上続く場合、または耳の痛みに伴うめまい、発熱、顔の脱力感、しびれなどの他の症状がある場合は、医師の診察を受ける必要があります。評価。医師は痛みの原因を特定し、適切な治療を提供します。
このようにして、研究者らは、評価のためにこれら 3 セットの回答を米国、英国、インドの臨床医 9 名に匿名で提供しました。
結果は、科学的常識の観点から、Med-PaLM と人間の医師の両方が 92% 以上の精度を達成したのに対し、Flan-PaLM の対応する数値は 61.9% であったことを示しています。
一般に、理解、検索、および推論能力の点で、Med-PaLM は人間の医師のレベルにほぼ達しており、両者にほとんど違いはありませんが、Flan- PaLM も同じボトムを実行します。
回答の完全性に関しては、Flan-PaLM の回答は重要な情報の 47.2% を見逃していたと考えられていますが、Med-PaLM の回答はわずか 15.1% で大幅に改善されました。回答のうち情報が不足していると考えられ、人間の医師との距離がさらに縮まりました。
ただし、情報の欠落は少なくなりますが、回答が長くなると、不正確な内容が混入するリスクも高まります。Med-PaLM の回答に含まれる不正確な内容の割合は 18.7% に達しました。 , 3つの中で最も高い。
回答の有害性の可能性を考慮すると、Flan-PaLM の回答の 29.7% が潜在的に有害であると考えられましたが、Med-PaLM では、この数字は 5.9% に低下しました。 . 人間の医師は5.7%で最も低かった。
これに加えて、Med-PaLM は医療人口統計における偏見に関して人間の医師を上回りましたが、Med-PaLM の回答の中に唯一偏見があった例は 0.8% でした。人間の医師では 1.4%、Flan-PaLM では 7.9% になります。
最後に、研究者らは 5 人の非専門ユーザーに、これら 3 つの回答セットの実用性を評価してもらいました。 Flan-PaLM の回答のうち役立つと考えられたのはわずか 60.6% でしたが、その数は Med-PaLM では 80.3% に増加し、最も高いのは人間の医師の 91.1% でした。
上記の評価をすべて要約すると、指示プロンプトの調整がパフォーマンスの向上に大きな効果をもたらしていることがわかります。140 件の消費者医療問題のうち、Med-PaLM のパフォーマンスはほぼ人間の医師のレベルに追いついた。
この論文の研究チームは Google と DeepMind から構成されています。
Google Health は昨年、大規模な人員削減と組織再編にさらされましたが、これは医療分野への主要な立ち上げと言えるでしょう。
Google AI の責任者である Jeff Dean さえも立ち上がり、強い推薦を表明しました。
業界関係者の中には、次の記事を読んで賞賛する人もいます。
臨床知識は複雑な分野であり、明確な正解がないことがよくあります。そして患者さんとの会話も必要です。
今回の Google DeepMind の新しいモデルは、LLM の完璧な応用です。
#別のチームが少し前に USMLE に合格したばかりであることは言及する価値があります。
今年はさらに先を見据えて、PubMed GPT、DRAGON、Meta’s Gaoptica などの大型モデルの波が出現し、専門試験で繰り返し新記録を樹立しました。
#医療 AI は非常に繁栄しており、昨年それが悪いニュースだったとは想像するのが難しいほどです。当時、Google の医療 AI に関する革新的なビジネスはまだ始まっていませんでした。
昨年6月、同社が経営危機に陥り、大規模な人員削減と組織再編を余儀なくされていることが米メディアBIによって暴露された。 2018 年 11 月に Google Health 部門が初めて設立されたとき、部門は非常に繁盛していました。
Google だけではなく、他の有名テクノロジー企業の医療 AI ビジネスも再編や買収を経験しています。
Google DeepMind がリリースした大規模な医療モデルを読んだ後、医療 AI の開発について楽観的ですか?
論文アドレス: https://arxiv.org/abs/2212.13138
参考リンク: https://twitter.com/vivnat/status/1607609299894947841
以上がAI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。