AI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵する
史上最高の AI スコアを誇る Google の新しいモデルが、米国医師免許試験の検証に合格しました。
さらに、科学的知識、理解、検索、推論などの能力においては、人間の医師のレベルに直接匹敵します。一部の臨床質疑応答のパフォーマンスでは、元の SOTA モデルを 17% 以上上回りました。
この開発結果が発表されるとすぐに、学術コミュニティで激しい議論が巻き起こり、業界の多くの人がため息をつきました。 、 ここです。
Med-PaLMと人間の医師との比較を見た多くのネチズンは、AI医師がその職に就くことをすでに楽しみにしていると表明しました。
このタイミングの正確さを嘲笑する人もいます。このタイミングは、ChatGPT のせいで Google が「死ぬ」だろうと誰もが思っていた時期と一致していました。
これがどのような研究なのか見てみましょう。
史上最高の AI スコア
医療の専門的な性質により、今日の AI モデルは、言語をほとんど使用せずにこの分野に適用されています。これらのモデルは便利ですが、単一タスク システム (分類、回帰、セグメンテーションなど) に焦点を当てていること、表現力や対話機能が不足していることなどの問題があります。
大規模モデルの進歩により、AI医療に新たな可能性がもたらされましたが、この分野の特殊性から、虚偽の医療情報の提供など潜在的な危害についても考慮する必要があります。
この背景に基づいて、Google Research と DeepMind チームは医療 Q&A を研究対象とし、次の貢献を行いました:
- 医療検査を含む医療 Q&A ベンチマーク MultiMedQA を提案しました。医学研究と消費者向け医薬品の問題;
- PaLM と微調整されたバリアント Flan-PaLM を MultiMedQA で評価;
- Flan-PaLM を医薬品とさらに統合するためのコマンド プロンプト x 調整を提案し、結果として Med -PaLM。
彼らは、「医療上の質問に答える」というタスクは非常に難しいと考えています。質の高い回答を提供するには、AI が医学的背景を理解し、適切に思い出す必要があるからです。医学知識を理解し、専門家の情報から推論を行います。
既存の評価ベンチマークは、多くの場合、分類精度や自然言語生成指標の評価に限定されており、実際の臨床応用の詳細な分析は提供できません。
まず、チームは 7 つの医療質問応答データ セットで構成されるベンチマークを提案しました。
MedQA (USMLE、米国医師免許試験の問題) も含む 6 つの既存のデータセットが含まれており、検索された健康に関する質問で構成される独自の新しいデータセット HealthSearchQA も導入されています。
これには、健康診断、医学研究、消費者医療の問題が含まれます。
その後、チームは MultiMedQA を使用して、PaLM (5,400 億パラメーター) と、微調整された指示を備えたバリアント Flan-PaLM を評価しました。たとえば、タスクの数、モデルのサイズ、思考連鎖データの使用戦略を拡張します。
FLAN は、Google Research によって昨年提案された微調整された言語ネットワークです。一般的な NLP タスクにより適したものになるようにモデルを微調整し、命令調整を使用してモデルをトレーニングします。
Flan-PaLM は、MedQA、MedMCQA、PubMedQA、MMLU などのいくつかのベンチマークで最適なパフォーマンスを達成したことがわかりました。特に、MedQA (USMLE) データセットは、以前の SOTA モデルを 17% 以上上回りました。
この研究では、異なるサイズの 3 つの PaLM モデルおよび Flan-PaLM モデルのバリアント (80 億パラメータ、620 億パラメータ、5,400 億パラメータ) が検討されました。
ただし、Flan-PaLM には依然として一定の制限があり、消費者の医療問題への対処では十分なパフォーマンスを発揮できません。
この問題を解決し、Flan-PaLM を医療現場により適したものにするために、指示プロンプトを調整し、Med-PaLM モデルが誕生しました。
△例: 新生児黄疸が消えるまでどれくらい時間がかかりますか?
チームはまず、MultiMedQA の自由回答データセット (HealthSearchQA、MedicationQA、LiveQA) からいくつかの例をランダムに選択しました。
次に、5 人の臨床医のグループに模範解答を提示してもらいます。これらの臨床医は米国と英国に拠点を置き、プライマリケア、外科、内科、小児科の専門知識を持っています。最後に、指示プロンプト調整トレーニング用に 40 個の例が HealthSearchQA、MedicationQA、LiveQA に残されました。
複数のタスクは人間の医師のレベルに近い
Med-PaLM の最終的な効果を検証するために、研究者らは組織から 140 個のサンプルを抽出しました。 MultiMedQA は消費者の医療問題について言及しました。
そのうち 100 件は HealthSearchQA データ セットから、20 件は LiveQA データ セットから、20 件は MedicationQA データ セットからのものです。
これには、Med-PaLM を生成するための指示プロンプトを調整するために元々使用されていた問題は含まれていないことに注意してください。
彼らは、Flan-PaLM と Med-PaLM にこれら 140 の質問に対する回答を作成するよう依頼し、その後、専門の臨床医のグループに回答を求めました。
例として、「激しい耳の痛みとはどういう意味ですか?」と尋ねられた場合、Med-PaLM は、患者が感染している可能性のある病気を列挙するだけでなく、次のような現象があるかどうかも提案します。 :医者に行ったほうがいいよ。
耳の痛みは、中耳感染症 (中耳炎)、外耳感染症 (耳感染症)、耳垢の停滞など、いくつかの基礎疾患の兆候である可能性があります。また、脳腫瘍や脳卒中など、より深刻な病気の兆候である可能性もあります。
重度の耳の痛みが数日以上続く場合、または耳の痛みに伴うめまい、発熱、顔の脱力感、しびれなどの他の症状がある場合は、医師の診察を受ける必要があります。評価。医師は痛みの原因を特定し、適切な治療を提供します。
このようにして、研究者らは、評価のためにこれら 3 セットの回答を米国、英国、インドの臨床医 9 名に匿名で提供しました。
結果は、科学的常識の観点から、Med-PaLM と人間の医師の両方が 92% 以上の精度を達成したのに対し、Flan-PaLM の対応する数値は 61.9% であったことを示しています。
一般に、理解、検索、および推論能力の点で、Med-PaLM は人間の医師のレベルにほぼ達しており、両者にほとんど違いはありませんが、Flan- PaLM も同じボトムを実行します。
回答の完全性に関しては、Flan-PaLM の回答は重要な情報の 47.2% を見逃していたと考えられていますが、Med-PaLM の回答はわずか 15.1% で大幅に改善されました。回答のうち情報が不足していると考えられ、人間の医師との距離がさらに縮まりました。
ただし、情報の欠落は少なくなりますが、回答が長くなると、不正確な内容が混入するリスクも高まります。Med-PaLM の回答に含まれる不正確な内容の割合は 18.7% に達しました。 , 3つの中で最も高い。
回答の有害性の可能性を考慮すると、Flan-PaLM の回答の 29.7% が潜在的に有害であると考えられましたが、Med-PaLM では、この数字は 5.9% に低下しました。 . 人間の医師は5.7%で最も低かった。
これに加えて、Med-PaLM は医療人口統計における偏見に関して人間の医師を上回りましたが、Med-PaLM の回答の中に唯一偏見があった例は 0.8% でした。人間の医師では 1.4%、Flan-PaLM では 7.9% になります。
最後に、研究者らは 5 人の非専門ユーザーに、これら 3 つの回答セットの実用性を評価してもらいました。 Flan-PaLM の回答のうち役立つと考えられたのはわずか 60.6% でしたが、その数は Med-PaLM では 80.3% に増加し、最も高いのは人間の医師の 91.1% でした。
上記の評価をすべて要約すると、指示プロンプトの調整がパフォーマンスの向上に大きな効果をもたらしていることがわかります。140 件の消費者医療問題のうち、Med-PaLM のパフォーマンスはほぼ人間の医師のレベルに追いついた。
背後のチーム
この論文の研究チームは Google と DeepMind から構成されています。
Google Health は昨年、大規模な人員削減と組織再編にさらされましたが、これは医療分野への主要な立ち上げと言えるでしょう。
Google AI の責任者である Jeff Dean さえも立ち上がり、強い推薦を表明しました。
業界関係者の中には、次の記事を読んで賞賛する人もいます。
臨床知識は複雑な分野であり、明確な正解がないことがよくあります。そして患者さんとの会話も必要です。
今回の Google DeepMind の新しいモデルは、LLM の完璧な応用です。
#別のチームが少し前に USMLE に合格したばかりであることは言及する価値があります。
今年はさらに先を見据えて、PubMed GPT、DRAGON、Meta’s Gaoptica などの大型モデルの波が出現し、専門試験で繰り返し新記録を樹立しました。
#医療 AI は非常に繁栄しており、昨年それが悪いニュースだったとは想像するのが難しいほどです。当時、Google の医療 AI に関する革新的なビジネスはまだ始まっていませんでした。
昨年6月、同社が経営危機に陥り、大規模な人員削減と組織再編を余儀なくされていることが米メディアBIによって暴露された。 2018 年 11 月に Google Health 部門が初めて設立されたとき、部門は非常に繁盛していました。
Google だけではなく、他の有名テクノロジー企業の医療 AI ビジネスも再編や買収を経験しています。
Google DeepMind がリリースした大規模な医療モデルを読んだ後、医療 AI の開発について楽観的ですか?
論文アドレス: https://arxiv.org/abs/2212.13138
参考リンク: https://twitter.com/vivnat/status/1607609299894947841
以上がAI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。 小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。 これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。 最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。 ソニーのホー

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。 現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。 新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました

AIのリスクを取り巻く増大する懸念に対処するために、グローバルな専門家保険会社であるChaucer GroupとArmilla AIは、新しいサードパーティの責任(TPL)保険商品を導入するために力を合わせました。 このポリシーは、企業を守ります


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ホットトピック









