搜尋
首頁科技週邊人工智慧大型語言模式對編碼來說是錯誤的嗎?

當目標是準確度、一致性、精通遊戲或找到一個正確答案時,強化學習模型會擊敗生成式人工智慧。

大型語言模型,如GPT-4,令人矚目,因為它們可以產生高品質、流暢自然的文本,極具說服力。可悲的是,炒作也是如此:微軟的研究人員屏氣地將微軟資助的OpenAI GPT-4模型描述為展示「人工通用智慧的火花」。

當然,除非微軟指的是產生幻覺的傾向,生成的錯誤文字肯定是錯的。 GPT還不擅長下棋和圍棋等遊戲,不擅長數學,編寫的程式碼可能有錯誤和微妙的漏洞。

這並不意味著大型語言模型都是炒作。我們需要一些新的角度來討論生成式人工智慧(GenAI),而不是過度誇大它與其他技術的差異。

正如IEEESpectrum的一篇文章所詳述的那樣,一些專家,例如OpenAI的IlyaSutskever,認為添加帶有人類反饋的強化學習可以消除LLM幻覺。但是其他人,例如Meta的YannLeCun和GeoffHinton(最近從Google退休),認為大型語言模型中更根本的缺陷在起作用。兩人都認為,大型語言模型缺乏非語言知識,而非語言知識對於理解語言所描述的潛在現實是至關重要的。

Diffblue公司的CEO Mathew Lodge在一次訪談中指出,有一種更優秀的解決方案。他說,「小型、快速、運行成本低廉的強化學習模型,在從玩遊戲到編寫程式碼的各種任務中,都能輕鬆擊敗擁有千億參數的大型語言模型。」

#我們是否在錯誤的地方尋找人工智慧黃金?

Lodge所說的是,生成式人工智慧一定有其應用場景,但我們也許正試圖將其強行引入較不適合的強化學習領域。以遊戲為例。

Levy Rozman, 一位國際象棋大師,發布了一個他與 ChatGPT(聊天式人工智慧)對弈的影片。這個模型做出了一系列荒謬和非法的動作,包括捕捉自己的棋子。最好的開源國際象棋軟體(Stockfish,它根本不使用神經網路)讓ChatGPT在不到10步驟的時間內擊敗,因為大型語言模型找不到合法的走法。這證明了大型語言模型遠遠無法達到通用人工智慧的宣傳,而這並不是一個孤立的例子。

由於其強化學習演算法的驅動,GoogleAlphaGo是目前圍棋人工智慧中表現最佳的。強化學習的工作原理是為一個問題產生不同的解決方案,嘗試它們,使用結果來改進下一個建議,然後重複這個過程數千次以找到最佳結果。

在AlphaGo的例子中,人工智慧會嘗試不同的走法,並預測這是否是一個好走法,以及它是否有可能從這個位置贏得比賽。它使用回饋來「追蹤」有希望的移動序列,並產生其他可能的移動。其效果是對可能的移動進行搜尋。

這個過程稱為機率搜尋。雖然招式繁多,你不需要嘗試所有,但可以耐心搜尋可能找到最佳招式的領域。這對於玩遊戲來說非常有效。 AlphaGo過去曾擊敗過圍棋大師。 AlphaGo並非萬無一失,但它目前的表現比當今最好的大型語言模型還要好。

機率與準確性

支持者相信,即使有證據表明大型語言模型的表現明顯落後於其他類型的人工智慧,它們也會逐漸變得更好。然而,Lodge指出,我們需要理解為什麼他們能夠在這種任務中表現得更優秀,如果我們認同這個觀點。他繼續說道,在這個問題上出現困難的原因是,沒有人能夠準確預測GPT-4對於特定提示的反應會帶來怎樣的結果。這種模式是人類無法解釋的。他認為,這就是「『即時工程』不存在的原因。」他強調,對於人工智慧研究人員來說,證明大型語言模型的「湧現特性」存在也是一場鬥爭,更不用說預測它們了。

可以說,最好的論證就是歸納法。 GPT-4在某些語言任務上比GPT-3更好,因為它更大。因此,更大的模型會更好。

Lodge的看法是GPT-4仍需克服GPT-3所面臨的挑戰,因此存在一個問題。其中一個便是數學;雖然GPT-4在加法運算方面比GPT-3更優秀,但它在乘法和其他數學運算方面仍然存在瓶頸。

增加語言模型的大小並不能神奇地解決這些問題,根據OpenAI稱更大的模型並不是解決方案。原因歸結為大型語言模型的基本性質,正如OpenAI論壇所指出的那樣:“大型語言模型本質上是概率性的,並且通過根據他們在訓練數據中觀察到的模式生成可能的輸出來運行。在數學和物理問題中,找到唯一的正確答案的可能性很小。」

#

人工智慧過程中,由強化學習驅動的方法能夠更準確地產生結果,因為這是一個追求目標的過程。強化學習透過迭代尋找最接近目標的最佳答案,以達到預期的目標。 Lodge指出,大型語言模型課程「並不是為了迭代或尋找目標而設計的。它們的設計目的是給出'足夠好'的一次或幾次回答。」

「一次性」答案是模型產生的第一個答案,它是透過預測提示中的一系列單字而獲得的。 "Few-shot learning" involves providing additional samples or cues to the model to assist it in generating better predictions.。大型語言模型通常也會加入一些隨機性(也就是說,它們是「隨機的」),以增加更好的回答的可能性,所以他們會對同樣的問題給出不同的答案。

並不是說大型語言模型世界忽略了強化學習。 GPT-4結合了「強化學習與人類回饋」(RLHF)。人類操作員訓練後的核心模型更傾向於某些答案,但從根本上來說,這並不會改變模型首先產生的答案。 Lodge指出,大型語言模型可能會提供以下選項來填補句子「韋恩•格雷茨基喜歡冰…」的空缺。

1.韋恩•格雷茨基喜歡冰淇淋。

2.韋恩•格雷茨基喜歡冰球。

3.韋恩•格雷茨基喜歡冰上釣魚。

4.韋恩•格雷茨基喜歡滑冰。

5.韋恩•格雷茨基喜歡冰酒。

人工操作員對答案進行排序,可能會認為加拿大傳奇冰球運動員更喜歡冰球和滑冰,儘管冰淇淋有著廣泛的吸引力。人類的排名和更多的人類寫的答案被用來訓練模型。請注意,GPT-4並沒有假裝準確地知道韋恩•格雷茨基的偏好,只是在提示下最可能的完成。

最後,大型語言模型的設計並不是高度準確或一致的。在準確性和確定性行為之間存在著一種權衡,以換取普遍性。對Lodge來說,這一切都意味著,在大規模應用人工智慧方面,強化學習擊敗了生成式人工智慧。

將強化學習應用於軟體

軟體開發呢?如我所寫的,GenAI已經為那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生產力的開發人員提供了機會。這不是猜測——它已經發生了。這些工具可以預測接下來可能出現的程式碼,它們根據整合開發環境中插入點前後的程式碼來進行預測。

事實上,正如VisualStudio雜誌的DavidRamel所言,最新版本的Copilot已經產生了61%的Java程式碼。對於那些擔心這會減少軟體開發人員工作的人,請記住,這些工具需要勤奮的人工監督來檢查完成情況,並對其進行編輯,以使程式碼正確編譯和運行。自IDE誕生之初,自動補全功能就一直是IDE的主要功能,而Copilot和其他程式碼產生器使它變得更加有用。大規模的自主編碼不同,實際上需要編寫61%的Java程式碼。

然而,強化學習可以進行精確的大規模自主編碼,Lodge說。當然,他這麼說是出於既得利益:2019年,他的公司Diffblue發布了基於強化學習的商業單元測試編寫工具Cover。 Cover在沒有人工幹預的情況下編寫完整的單元測試套件,使大規模自動化複雜的、容易出錯的任務成為可能。

Lodge有偏見嗎?絕對的。他有許多經驗證明強化學習在軟體開發中勝過GenAI的信念是正確的。如今,Diffblue使用強化學習來搜尋所有可能的測試方法的空間,為每個方法自動編寫測試程式碼,並在編寫的測試中選擇最佳測試。強化學習的獎勵函數以多種標準為基礎,包括測試覆蓋率和美學,其中之一就包括符合人類編寫的編碼風格。該工具平均在一秒鐘內為每種方法建立測試。

Lodge認為,如果目標是為一個沒有人理解的程式自動編寫10,000個單元測試,那麼強化學習是唯一真正的解決方案。 「大型語言模型無法競爭;人類沒有辦法有效地監督它們,並在這種規模上糾正它們的程式碼,使模型更大、更複雜並不能解決這個問題。」

結論:大型語言模型最強大的地方在於它們是通用語言處理器。他們可以完成沒有受過明確訓練的語言任務。這意味著他們可以在內容生成(文案)和許多其他事情上做得很好。 Lodge強調:「但這並不能使大型語言模型成為人工智慧模型的替代品,人工智慧模型通常基於強化學習,後者更準確、更一致,而且可以大規模使用。」

以上是大型語言模式對編碼來說是錯誤的嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
内容创作神器!八个AI工具让你轻松提升10倍工作效率内容创作神器!八个AI工具让你轻松提升10倍工作效率Apr 12, 2023 pm 11:28 PM

随着互联网技术和人工智能的发展,越来越多的内容创作者开始采用各种AI工具来提高创作效率和质量。本文将介绍8个最流行的AI工具,它们可以帮助你轻松实现10倍的效率提升,让你更快地完成内容创作任务,同时保证内容的高质量和创意。Chatsonic一个类似chatgpt的聊天机器人,具有实时数据、图像、语音搜索等功能。专门为内容创作者设计的AI聊天机器人来提升你的生产力。网址:https://writesonic.com/chatMidjourney一个由人工智能驱动的系统,根据用户输入的提示创建图像。

如果您想最大限度地提高工作效率,请不要忽视这十种 AI 工具如果您想最大限度地提高工作效率,请不要忽视这十种 AI 工具Apr 07, 2023 pm 02:39 PM

ChatGPT 之前几十年来,人工智能 (AI) 一直在改变我们的生活和工作方式。从使用 AI 驱动的虚拟助手改善我们的个人生活,到通过智能自动化彻底改变整个行业,AI 一次又一次地证明了它的价值。但在 ChatGPT 之前,AI 过去常常执行特定的小任务,很少有人认真对待它。ChatGPT 之后有了 ChatGPT,世界变得疯狂了。就那么几天之内,人们都在谈论这种令人兴奋的语言模型的强大功能。重点突然转移到基于人工智能的工具上,越来越多的人开始使用这些基于人工智能的工具,从那时起,更多工具应运

用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!Apr 11, 2023 pm 08:19 PM

糟透了我承认我不是一个爱整理桌面的人,因为我觉得乱糟糟的桌面,反而容易找到文件。哈哈,可是最近桌面实在是太乱了,自己都看不下去了,几乎占满了整个屏幕。虽然一键整理桌面的软件很多,但是对于其他路径下的文件,我同样需要整理,于是我想到使用Python,完成这个需求。效果展示我一共为将文件分为9个大类,分别是图片、视频、音频、文档、压缩文件、常用格式、程序脚本、可执行程序和字体文件。# 不同文件组成的嵌套字典 file_dict = { '图片': ['jpg','png','gif','webp

八个流行的 Python 可视化工具包,你喜欢哪个?八个流行的 Python 可视化工具包,你喜欢哪个?Apr 11, 2023 pm 11:43 PM

大家好,我是Python人工智能技术喜欢用 Python 做项目的小伙伴不免会遇到这种情况:做图表时,用哪种好看又实用的可视化工具包呢?之前文章里出现过漂亮的图表时,也总有读者在后台留言问该图表时用什么工具做的。下面,作者介绍了八种在 Python 中实现的可视化工具包,其中有些包还能用在其它语言中。快来试试你喜欢哪个?用 Python 创建图形的方法有很多,但是哪种方法是最好的呢?当我们做可视化之前,要先明确一些关于图像目标的问题:你是想初步了解数据的分布情况?想展示时给人们留下深刻印象?也许

17 个可以实现高效工作与在线赚钱的 AI 工具网站17 个可以实现高效工作与在线赚钱的 AI 工具网站Apr 11, 2023 pm 04:13 PM

自 2020 年以来,内容开发领域已经感受到人工智能工具的存在。1.Jasper AI网址:https://www.jasper.ai在可用的 AI 文案写作工具中,Jasper 作为那些寻求通过内容生成赚钱的人来讲,它是经济实惠且高效的选择之一。该工具精通短格式和长格式内容均能完成。Jasper 拥有一系列功能,包括无需切换到模板即可快速生成内容的命令、用于创建文章的高效长格式编辑器,以及包含有助于创建各种类型内容的向导的内容工作流,例如,博客文章、销售文案和重写。Jasper Chat 是该

用Python下载壁纸并自动更换桌面用Python下载壁纸并自动更换桌面Apr 10, 2023 pm 03:01 PM

壁纸 API我们这里使用一个开源在 GitHub 上的必应壁纸 API 作为壁纸的来源​https://github.com/zenghongtu/bing-wallpaper从 readme 当中我们可以知道,在 web 应用中我只需要使用如下引用即可<img src="https://bingw.jasonzeng.dev/?w=800"/>实在是太方便了接口使用下面我们来看下该 API 的具体调用规则1、传入 resolution 参数可以指

人工智能刷脸测年龄人工智能刷脸测年龄Apr 09, 2023 pm 11:21 PM

​Instagram正在测试用户验证年龄的新方法,包括由第三方公司Yoti开发的一款人工智能工具,它可以通过扫描你的脸来估计你的年龄。按照官方规定,必须年满13岁才能注册Instagram账户。但多年来,该公司几乎没有努力执行这一规定。它甚至都懒得问新用户的生日,更不用说核实这些信息了。然而,直到2019年遭到隐私和儿童安全专家的猛烈抨击之后,Instagram推出了越来越多的年龄验证功能,以及将年轻用户与成年用户区分开来的方法。目前,在青少年试图修改自己的出生日期,显示自己年满18岁时Inst

七 个超酷的 AI 工具值得一试七 个超酷的 AI 工具值得一试Apr 12, 2023 pm 01:10 PM

我们非常接近 2023 年,我们都希望在新的一年里基于 AI 的工具会出现爆炸式增长,这是有充分理由的。如果像我一样,你是这些技术的忠实粉丝,以及它们如何将我们的生产力提高 10 倍,你可以在这篇文章中找到该领域的 7 种工具列表。​您知道吗,您可以在DoTenX上免费实施带有或不带有编码的网络应用程序、API、网站或登录页面?请务必检查一下,甚至提名您的作品进行展示。DoTenX 是开源的,您可以在此处找到存储库:github.com/dotenx/dotenx。现在,让我们来看看我们的列表。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器