搜尋
首頁科技週邊人工智慧微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

微軟最新研究再次證明了提示工程的威力——

無需額外微調,無需專家策劃,僅憑提示,GPT-4就能化身「專家」。

使用他們提出的最新提示策略Medprompt,在醫療專業領域,GPT-4在MultiMed QA九個測試集中取得最佳結果。

在MedQA資料集(美國醫師執照考試題)上,Medprompt讓GPT-4的準確率首次超過90%超越BioGPT和Med-PaLM等一眾微調方法。

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

研究人員也表示Medprompt方法是通用的,不僅適用於醫學,還可以推廣到電機工程、機器學習、法律等專業。

這項研究在X(原Twitter)一分享,就引發許多網友關注。

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

華頓商學院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉寄分享。

Carlos E. Perez直呼「出色的提示策略可以甩微調一大截」:

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

有一些網友表示早就有這種預感,現在能看到結果出來,真的太酷了!

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

有些網友認為這真的很「激進」

GPT-4是一項能改變產業的技術,而我們還遠沒有觸及提示的極限,也未達微調極限。

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

組合提示策略,「變身」專家

Medprompt是多種提示策略的組合體,包含三大法寶:

  • 動態少樣本選擇(Dynamic few-shot selection)
  • 自生成思維鏈(Self-generated chain of thought)
  • 選項洗牌整合(Choice shuffling ensemble )

接下來,我們將逐一介紹

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

#動態少樣本選擇

少樣本學習是讓模型快速學習情境的一種有效的方法。簡單來說,就是輸入一些範例,讓模型快速適應特定領域,並學習遵循任務的格式。

這種用於特定任務提示的少樣本範例通常是固定的,所以對範例的代表性和廣泛性有較高的要求。

之前一種方法是讓領域專家手動製作範例,但即便如此,也不能保證專家策劃的固定的少樣本範例在每個任務中都有代表性。

微軟研究人員提出了一種動態少樣本範例的方法,因此

想法是,任務訓練集可以作為少樣本範例的來源,如果訓練集足夠大,那就可以為不同的任務輸入選擇不同的少樣本範例。

在特定操作上,研究人員首先使用text-embedding-ada-002模型為每個訓練樣本和測試樣本產生向量表示。然後,針對每個測試樣本,透過比較向量的相似度,從訓練樣本中選擇出與之最相似的k個樣本

與微調方法相比,動態少樣本選擇利用了訓練數據,但不需要對模型參數進行大量更新。

自生成思維鏈

思考鏈(CoT)方法是一種讓模型逐步思考並產生一系列中間推理步驟的方法

以前的方法是依靠專家手動編寫一些帶有提示思維鏈的範例

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

在這裡,研究人員發現,可以簡單地要求GPT-4使用以下提示為訓練範例產生思維鏈:

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟,於是設置了一個驗證標籤作為過濾器,可以有效減少錯誤。

與在Med-PaLM 2模型中專家手工製作的思維鏈範例相比,GPT-4產生的思維鏈基本原理更長,而且逐步推理邏輯更細粒度。

選項洗牌整合

GPT-4在處理選擇題時可能存在一種偏見,即無論選項的內容是什麼,它傾向於總是選擇A或總是選擇B ,這就是位置偏差

為了解決這個問題,研究人員決定對原有的選項進行順序重排,以減少影響。例如,原本的選項順序為ABCD,可以改為BCDA、CDAB等

然後讓GPT-4做多輪預測,每輪使用選項的一個不同排列順序。如此一來「迫使」GPT-4考慮選項的內容。

最後對多輪預測結果做個投票,選擇最一致、正確的選項。

將以上幾個提示策略組合在一起就是Medprompt,以下來看測試結果。

多項測試最優

在測試中,研究人員採用了MultiMed QA評估基準。

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

使用Medprompt提示策略的GPT-4,在MultiMedQA的九個基準資料集中均取得最高分,優於Flan-PaLM 540B、Med-PaLM 2。

此外,研究人員也討論了Medprompt策略在「Eyes-Off」資料上的表現。所謂「Eyes-Off」數據,指的是模型在訓練或優化過程中未曾見過的數據,用於檢驗模型是否過度擬合訓練數據

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

結果GPT-4結合Medprompt策略在多個醫學基準資料集上表現出色,平均準確率達到了91.3%。

研究人員對MedQA資料集進行了消融實驗,以探索三個組件對整體表現的相對貢獻

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

在其中,自動產生思維鏈步驟對於效能的提升起著最大的作用

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

GPT-4自動產生的思維鏈分數比Med-PaLM 2中專家策劃的得分更高,且不需要人工幹預

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

最後,研究人員也探討了Medprompt的跨域泛化能力,取用了MMLU基準中的六個不同的資料集,涵蓋了電機工程、機器學習、哲學、專業會計、專業法律和專業心理學的問題。

也增加了另外兩個包含NCLEX(美國護理師執照考試)問題的資料集。

結果顯示,Medprompt在這些資料集上的效果與在MultiMedQA醫學資料集上的提升幅度相近,平均準確率提高了7.3%。

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

請點選以下連結查看論文:https://arxiv.org/pdf/2311.16452.pdf

以上是微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)