搜尋
首頁科技週邊人工智慧史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

史上AI最高分,Google新模型剛通過美國醫師執照試題驗證!

而且在科學常識、理解、檢索和推理能力等任務中,直接與人類醫生水平相匹敵。在一些臨床問答表現中,最高超原SOTA模型17%以上。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

此進展一出,瞬間引爆學界熱議,不少業內人士感嘆:終於,它來了。

廣大網友在看完Med-PaLM與人類醫師的比較後,則是紛紛表示已經在期待AI醫師上崗了。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

還有人調侃這個時間點的精準,恰逢大家都以為Google會因ChatGPT而「死」之際。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

來看看這到底是什麼樣的研究?

史上AI最高分

由於醫療的專業性,今天的AI模型在該領域的應用很大程度上沒有充分運用語言。這些模型雖然有用,但有聚焦單任務系統(如分類、迴歸、分割等)、缺乏表現力和互動能力等問題。

大模型的突破為AI 醫療帶來了新的可能性,但由於該領域的特殊性,仍需考慮潛在的危害,例如提供虛假醫療資訊。

基於這樣的背景,Google研究院和DeepMind團隊以醫療問答為研究對象,做出了以下貢獻:

  • 提出了一個醫學問答基準MultiMedQA,包括醫學考試、醫學研究和消費者醫學問題;
  • 在MultiMedQA上評估了PaLM及微調變體Flan-PaLM;
  • 提出了指令提示x調整,讓Flan-PaLM進一步與醫學接軌,產生了Med-PaLM。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

他們認為「醫療問題的回答」這項任務很有挑戰性,因為要提供高品質的答案,AI需要理解醫學背景、回憶適當的醫學知識,並對專家資訊進行推理。

現有的評估基準往往侷限於評估分類準確度或自然語言產生指標,而不能對實際臨床應用中詳細分析。

首先,團隊提出了一個由7個醫學問題問答資料集組成的基準。

包括6個現有資料集,其中還包括MedQA(USMLE,美國醫師執照考試題),也引入了他們自己的新資料集HealthSearchQA,它由搜尋過的健康問題組成。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

這當中有關於醫學考試、醫學研究、消費者醫學問題等。

接著,團隊以MultiMedQA評估了PaLM(5,400億參數)、以及指令微調後的變體Flan-PaLM。例如透過擴大任務數、模型大小和使用思維鏈資料的策略。

FLAN是谷歌研究院去年提出的微調語言網絡,對模型進行微調使其更適用於通用NLP任務,使用指令調整來訓練模型。

結果發現,Flan-PaLM在幾個基準上達到了最優效能,例如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA(USMLE)資料集,表現超過了先前SOTA模型17%以上。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

本研究中,共考慮了三種不同規模的PaLM和Flan-PaLM模型變體:80億參數、620億參數以及5400億參數。

不過Flan-PaLM仍有一定的局限性,在處理消費者醫學問題上表現效果不佳。

為了解決這個問題,讓Flan-PaLM更適應醫學領域,他們進行了指令提示調整,產生Med-PaLM模型。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

△範例:新生兒黃疸需要多久才能消失?

團隊首先從MultiMedQA自由回答資料集(HealthSearchQA、MedicationQA、LiveQA)中隨機抽取了一些範例。

然後讓臨床醫師5人組提供示範性答案。這些臨床醫生分佈於美國和英國,在初級保健、外科、內科和兒科方面具有專業經驗。最後在HealthSearchQA、MedicationQA和LiveQA中留下了40個例子,用於指令提示調諧訓練。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

多個任務接近人類醫生水平

為了驗證Med-PaLM的最終效果,研究人員從上文提到的MultiMedQA中抽取了140個消費者醫療問題。

其中100個來自HealthSearchQA資料集,20個來自LiveQA資料集,20個來自MedicationQA資料集。

值得一提的是,這裡面並不包含當初用於指令提示調整以產生Med-PaLM的問題。

他們讓Flan-PaLM和Med-PaLM分別對這140個問題產生答案,並請來一組專業的臨床醫師回答。

以下圖為例,當被問到「耳朵痛得厲害意味著什麼」時,Med-PaLM不僅會一條列出病人可能感染的疾病,還會建議如果有以下幾種現象應該去就醫。

耳部疼痛可能是幾種潛在疾病的徵兆,包括:中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的徵兆,例如腦瘤或中風。

如果你有嚴重的耳朵疼痛,持續時間超過幾天,或有其他症狀伴隨耳朵疼痛,如頭暈、發燒、臉部無力或麻木,你應該去看醫生進行評估。醫生可以確定疼痛的原因,並提供適當的治療。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

就這樣,研究人員將這三組答案匿名後交給9名分別來自美國、英國和印度的臨床醫生進行評估。

結果顯示,在科學常識方面,Med-PaLM和人類醫師的正確率都達到了92%以上,而Flan-PaLM對應的數字為61.9%。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

在理解、檢索和推理能力上,總體來說,Med-PaLM幾乎達到了人類醫生的水平,兩者相差無幾,而Flan-PaLM同樣表現墊底。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

在答案的完整性上,雖然Flan-PaLM的回答被認為漏掉了47.2%的重要訊息,但Med-PaLM的回答有顯著提升,只有15.1%的回答被認為缺失了訊息,進一步拉近了與人類醫生的距離。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

不過,儘管遺漏資訊較少,但較長的答案也意味著會增加引入不正確內容的風險,Med-PaLM的答案中不正確內容比例達到了18.7%,為三者中最高。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

再考慮到答案可能產生的危害性,29.7%的Flan-PaLM回答被認為有潛在的危害;Med-PaLM的這個數字下降到了5.9%,人類醫生相對最低為5.7%。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

除此之外,在醫學人口統計的偏見上,Med-PaLM的表現超過了人類醫生,Med-PaLM的答案中存在偏見的情況僅有0.8%,相較之下,人類醫師為1.4%,Flan-PaLM為7.9% 。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

最後,研究人員也邀請了5位非專業用戶,來評估這三組答案的實用性。 Flan-PaLM的答案只有60.6%被認為有幫助,Med-PaLM的數量增加到了80.3%,人類醫生最高為91.1%。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

總結上述所有評估可以看出,指示提示調整對效能的提升效果顯著,在140個消費者醫療議題中,Med-PaLM的表現幾乎追上了人類醫生水平。

背後團隊

本次論文的研究團隊來自Google和DeepMind。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

在去年谷歌健康被曝大規模裁員重組後,這可以說是他們在醫療領域推出一大力作。

連GoogleAI負責人Jeff Dean都出來站台,表示強烈推薦!

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

有業內人士看完後也稱讚道:

臨床知識是一個複雜的領域,往往沒有一個明顯的正確答案,而且還需要與病人對話。

這次GoogleDeepMind的新模型堪稱LLM的完美應用。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

值得一提的是,前段時間剛通過了美國醫師執照考試另一個團隊。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

再往前數,今年湧現的PubMed GPT、DRAGON、Meta的Galactica等等一波大模型,屢屢在專業考試上創下新的記錄。

史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生

醫療AI如此盛況,很難想像去年還一度唱衰的光景。當時Google與醫療AI相關的創新業務始終沒有做起來。

去年6月還一度被美國媒體BI曝光正陷入重重危機之中,不得不大規模裁員重組。而2018年11月谷歌健康部門剛成立時可謂風光​​無限。

也不只是谷歌,其他知名科技公司的醫療AI業務,也都曾經歷過重組、收購的情況。

看完這次GoogleDeepMind發布的醫療大模型,你看好醫療AI的發展嗎?

論文網址:https://arxiv.org/abs/2212.13138

參考連結:https://twitter.com/vivnat/status/1607609299894947841

#

以上是史上AI最高分!谷歌大模型創美國醫師執照試題新紀錄,科學常識水準媲美人類醫生的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

5個免費數據分析課程 - 分析Vidhya5個免費數據分析課程 - 分析VidhyaApr 19, 2025 am 11:11 AM

踏上數據驅動的職業旅程而不會破壞銀行! 本文重點介紹了五個非凡的免費數據分析課程,非常適合兩位經驗豐富的專業人士,他們尋求擴大技能和好奇的新手渴望探索T

如何使用OpenAgi構建自主AI代理? - 分析Vidhya如何使用OpenAgi構建自主AI代理? - 分析VidhyaApr 19, 2025 am 11:10 AM

利用AI代理商的力量與OpenAgi:綜合指南 想像一下不懈的助手,總是可以簡化您的任務並提供有見地的建議。這就是AI代理商的承諾,Openagi賦予您建造它們

GPT-4O MINI:OpenAI的最新模型如何堆疊?GPT-4O MINI:OpenAI的最新模型如何堆疊?Apr 19, 2025 am 11:09 AM

Openai的最新產品GPT-4O Mini標誌著朝著負擔得起且可訪問的高級AI邁出的重要一步。 這種小型語言模型(SLM)直接挑戰諸如Llama 3和Gemma 2之類的競爭對手,具有低潛伏期,成本效益和A

從技術創新者到醫療保健先驅:Geetha Manjunath博士的AI故事從技術創新者到醫療保健先驅:Geetha Manjunath博士的AI故事Apr 19, 2025 am 11:02 AM

Niramai Analytix的創始人兼首席執行官Geetha Manjunath博士的這一集由“領導數據”的劇集。 Manjunath博士擁有AI和Healthcare的25年以上的經驗,並獲得了印度科學學院的博士學位和MBA來回。

用Ollama -Analytics Vidhya簡化本地LLM部署用Ollama -Analytics Vidhya簡化本地LLM部署Apr 19, 2025 am 11:01 AM

利用Ollama本地開源LLMS的力量:綜合指南 運行大型語言模型(LLMS)本地提供無與倫比的控制和透明度,但是設置環境可能令人生畏。 Ollama簡化了這個過程

如何使用Monsterapi微調大語言模型如何使用Monsterapi微調大語言模型Apr 19, 2025 am 10:49 AM

利用微調LLM的功能與Monsterapi:綜合指南 想像一個虛擬助手完美理解並預測您的需求。 由於大型語言模型(LLMS)的進步,這已成為現實。 但是,

5統計測試每個數據科學家都應該知道-Analytics Vidhya5統計測試每個數據科學家都應該知道-Analytics VidhyaApr 19, 2025 am 10:27 AM

數據科學的基本統計測試:綜合指南 從數據中解鎖有價值的見解至關重要。 掌握統計測試對於實現這一目標至關重要。這些測試使數據科學家能夠嚴格瓦爾

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。