搜尋
首頁科技週邊人工智慧AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

提示詞中加上「深呼吸」,AI大模型數學成績就能再漲8.4分!

GoogleDeepMind團隊最新發現,用這個新「咒語」(Take a deep breath)結合大家已經熟悉的「一步一步地想」 (Let's think step by step),大模型在GSM8K資料集上的成績就從71.8提高到80.2分。

而且這個最有效的提示詞,是AI自己找出來的#。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

有人開玩笑說,當你深呼吸後,散熱風扇的轉速就會提高

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

有些人認為,新進職的高薪工程師們也應該冷靜下來,因為他們的工作可能不會持續太久

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

相關論文《大語言模型是優化器》,再次引起轟動。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

具體來說,大模型自己設計的提示字在Big-Bench Hard資料集上最高提升50%。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

也有人的關注點在「不同模型的最佳提示字不一樣」# 。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

在論文中,不僅是提示詞設計這項任務,也測試了大模型在線性迴歸和旅行商問題等經典最佳化任務上的能力

模型不同,最佳提示詞也不同

優化問題無所不在,基於導數和梯度的演算法是強大的工具,但現實應用中也經常遇到梯度不適用的情況。

為解決這個問題,團隊發展了新方法OPRO#,也就是透過提示字優化(Optimization by PROmpting)。

不再是透過形式化定義最佳化問題並用程式求解,而是透過自然語言描述最佳化問題,並要求大型模型產生新的解決方案

一圖流總結,就是對大模型的一種遞歸呼叫。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

每一步優化中,以先前產生的解決方案和評分作為輸入,大模型產生新的方案並評分,再將其添加到提示詞中,供下一步優化使用。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

論文主要使用Google的PaLM 2和Bard中的text-bison 版本作為評測模式。

作為優化器,我們將使用四個模型,包括GPT-3.5和GPT-4

研究結果顯示,不同的模型設計出的提示詞風格以及適用的提示詞風格也各不相同

先前在GPT系列上的AI設計出的最優提示詞是“Let's work this out in a step by step way to be sure we have the right answer .”

這個提示詞使用APE方法設計,論文發表在ICLR 2023上,在GPT-3(text-davinci-002)上超過人類設計的版本“Let's think step by step」。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

在Google系的PaLM 2和Bard上,APE版本在這次作為基準測試中表現不如人類版本

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

OPRO方法設計出來的新提示詞中,#深呼吸」#「拆解這個問題」對PaLM來說效果最好。

對於text-bison版的Bard大模型來說,更傾向於提供更詳細的提示詞

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

此外,論文也展示了大型模型在數學最佳化器方面的潛力

線性迴歸作為連續最佳化問題的範例。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

旅行商問題作為離散最佳化問題的範例。

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

光是提示,大模型就能找到不錯的解決方案,有時甚至匹敵或超過手動設計的啟發式演算法。

然而,團隊也認為大模型還無法取代傳統基於梯度的最佳化演算法。當問題規模較大時,例如節點數量較多的旅行商問題,OPRO方法的表現並不理想

團隊提出了對未來改進方向的想法。他們認為目前的大模型還無法有效地利用錯誤案例,僅僅提供錯誤案例無法讓大模型捕捉到錯誤的原因

一個有前景的方向是結合關於錯誤案例的更豐富的反饋,並總結優化軌跡中高品質和低品質產生提示的關鍵特徵差異。

這些資訊有可能幫助優化器模型更有效地改進過去產生的提示,並有可能進一步減少進行提示優化所需的樣本數量

論文放出大量最優提示詞

論文來自Google與DeepMind合併後的部門,但作者以原谷歌大腦團隊為主,包括Quoc Le週登勇

共同一作為康乃爾大學博士畢業的復旦校友Chengrun Yang,和UC柏克萊博士畢業的上交大校友陳昕昀

團隊也提供了論文中許多實驗中所得到的最佳提示詞,包括電影推薦、惡搞電影名字等實用場景。若有需要的朋友,可以自行參考

AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!

論文網址:https://arxiv.org/abs/2309.03409

#

以上是AI自主設計提示詞,GoogleDeepMind發現數學「深呼吸」能讓大模型漲8分!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
前十名必須閱讀機器學習研究論文前十名必須閱讀機器學習研究論文Apr 19, 2025 am 09:53 AM

本文探討了十個徹底改變人工智能(AI)和機器學習(ML)的開創性出版物。 我們將研究神經網絡和算法的最新突破,並解釋驅動現代AI的核心概念。 Th

替換SEO機構的11個AI工具 - 分析Vidhya替換SEO機構的11個AI工具 - 分析VidhyaApr 19, 2025 am 09:49 AM

AI在SEO中的崛起:超過SEO代理商的前11個工具 AI的快速發展已深刻地重塑了SEO景觀。 旨在提高頂級搜索引擎排名的企業正在利用AI優化其在線策略的能力。 來自AU

前10個免費的AI遊樂場供您在2025年嘗試-Analytics Vidhya前10個免費的AI遊樂場供您在2025年嘗試-Analytics VidhyaApr 19, 2025 am 09:45 AM

探索2024年最好的免費AI遊樂場:綜合指南 訪問正確的工具和平台是在不斷發展的人工智能(AI)領域學習和創新的關鍵。 AI遊樂場提供了絕佳的機會

矢量數據庫中索引算法的詳細指南矢量數據庫中索引算法的詳細指南Apr 19, 2025 am 09:41 AM

介紹 向量數據庫是專門的數據庫,旨在有效地存儲和檢索高維矢量數據。 這些向量代表數據點的特徵或屬性,範圍從數十到數千個維度,具體取決於

反向擴散過程是什麼? - 分析Vidhya反向擴散過程是什麼? - 分析VidhyaApr 19, 2025 am 09:40 AM

穩定的擴散:揭示反向擴散的魔力 穩定的擴散是一種強大的生成模型,能夠從噪聲中產生高質量的圖像。此過程涉及兩個關鍵步驟:正向擴散過程(在上一個A中詳細介紹

掌握及時工程中的字典技術鏈掌握及時工程中的字典技術鏈Apr 19, 2025 am 09:38 AM

解鎖AI潛力:詞典鏈,用於增強及時工程 在人工智能和自然語言處理的快速發展的景觀中,速度和效率至關重要。 詞典方法e

如何使用Pyvista進行交互式3D醫療可視化如何使用Pyvista進行交互式3D醫療可視化Apr 19, 2025 am 09:31 AM

Pyvista:3D醫學和科學可視化的強大工具 想像一下可能性:一名醫學專業的學生毫不費力地探索複雜的解剖結構或數據科學家製作交互式3D模型。 Pyvista賦予了這樣的努力

什麼是及時工程中的符號鏈? - 分析Vidhya什麼是及時工程中的符號鏈? - 分析VidhyaApr 19, 2025 am 09:27 AM

使用符號鏈方法的及時工程:綜合指南 使用大型語言模型(LLM)(例如GPT-3或GPT-4)通常受益於復雜的及時工程。 符號方法鏈提供了一種結構化方法

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器