在GPT-4 32K還在內測階段,OpenAI的勁敵直接把上下文長度打了上去。
就在今天,新創公司Anthropic宣布,Claude已經能夠支援100K的上下文token長度,也就是大約75,000個單字。
這是什麼概念?
一般人花時大約5小時讀完等量內容後,還得用更多的時間去消化、記憶、分析。
對於Claude,不到1分鐘就搞定。
把「了不起的蓋茲比」整本書丟給它,大約有72k token,並將其中的一句話進行改動:
Mr. Carraway是一位在Anthropic從事機器學習工具的軟體工程師。
你敢相信? Claude只花了22秒,就把改動的這句話找出來了。
眾路網友紛紛表示,有了Claude 100K,手上的GPT-4 32K已經不香了。
前段時間,在OpenAI的開發者社群中,許多人討論GPT-4 32K正在推出。
而且,不少GPT-4的用戶已經可以在自己的PlayGround上看到GPT-4 32k的選項。
已經解鎖此版本的網友,讓其存取了數百個來自卸載HyperWrite用戶的資料點, GPT-4便準確地告訴他接下來該做怎樣的改進。
他稱讚道,GPT-4 32k是世界上最好的產品經理。
32k都這麼厲害了,那麼,有了100K豈不更強了。
顯然,OpenAI的強大對手Anthropic最先佔據了優勢。
100K token的上下文長度,意味著,你可以在Claude上傳數百頁的文字分析。而對話的持續時間也被大大拉長,延長到數小時,甚至數天。
當然,除了長文本閱讀之外,Claude還可以從文件中快速檢索出你所需的資訊。
你可以把多個文檔,甚至一本書的內容當作prompt,然後提問。
以後遇到論文,甚至巨長篇幅的直接讓Claude總結吧,這簡直就是啃論文後輩們的福音。
這種綜合性的問題通常需要對文本中很多部分的內容有一個全面的認識,而在處理這種問題上,Claude可以說要比基於向量搜尋的辦法要強。
Claude還可以是你的「代碼伴侶」,分鐘就能做個示範。
例如,上傳一個240頁的Langchain API文檔,讓它基於這個文檔,用Anthropic的語言模型做一個Langchain的簡單演示。
還可以把85頁的公司年度報表(10k)餵給Claude。
然後,要求突出對潛在投資者最重要的項目,並解釋其重要性。
此外,Claude 100k還能處理約6小時的音訊量。
比如說,AssemblyAI把一個卡馬克的播客的內容轉錄成了58k個token量的文本,然後用Claude進行了總結和問答。
#最後,Claude總結了一下自己能幹的事,覆蓋可以說是非常全面了。
- 理解、總結和解釋密集的文件,如財務報表、研究論文等
- 根據年報分析公司的策略風險和機會
- 評估一項立法的利弊
- 識別法律文件中的風險、主題和不同形式的爭論
- 閱讀數百頁的開發文檔,回答技術問題
#- 透過將整個程式碼庫放入上下文中,並智慧地建立或修改它來快速製作原型
當然,現在,Anthropic表示100K上下文還是一個測試版功能,在此期間將按照標準API定價來收費。
官網也給了具體價格:
# Claude Instant
Prompt:$0.00163 / 1K tokens
#Prompt:$0.00551 / 1K tokens
#Claude-v1
Prompt:$0.01102 / 1K tokens
Completion:$0.03268 / 1K tokens
#Completion:$0.03268 / 1K tokens#Completion:$0.03268 / 1K tokens
#Completion:$0.03268 / 1K tokens比起OpenAI,這價格已經非常親民了。
根據OpenAI官網,GPT-4 32k的Prompt需要$0.06,Completion需要$0.12。
相當於,你得花5-6倍的價格給模型prompt。
網友稱,Claude 100k比GPT-4 32k更快、更便宜。
網友實測
這麼重磅級的更新,一定少不了網友的體驗。 有網友稱100k簡直難以置信,能夠處理多篇完整的論文,部分完整的程式碼庫,甚至一本250頁的小說。 ##################順便提一句,許多網友最先用Claude測試了一番,發現效果還不錯。
最初,100K被限制在API中,Claude應用的預設模型仍然是9K。但很快,Claude應用程式介面也支援100K了。
一位網友用100頁的「GPT-4技術報告」測試,結果只能用amazing來形容。
還有人直接把太宰治的「人間失格」餵給了Claude,並用英文問故事中情節,完全給了準確的答案。
同時,這位網友把自己開發的Toolformer Zero完整原始碼丟給它,Claude精準描述出這是用來做什麼。
並且,Claude也稱讚了程式碼的模組化,提供增加一些單元測試的建議。
#把「貝奧武夫」詩丟進去,分析下貝奧武夫這個人物性格,也是非常準確。
英偉達科學家Jim Fan表示,這是Anthropic拋出的殺手鐧。未來在上下文長度的軍備賽正快速升溫。
對於支持100k的意義,網友稱,泰褲辣!這很好地展示了為什麼長文本對LLM很重要。
還有好多網友紛紛暗示GPT-4。
Claude-100K的誕生,讓AnthropicAI正式成為OpenAI的真正競爭者。
「許多人還在排隊等候32k的GPT-4。這次,Claude將上下文視窗擴展到10萬token,直接大幅躍升。
這也意味著包括OpenAI、Google在內的公司都要在這一領域競爭,這對用戶來說是一個巨大的勝利。」
還有網友感慨時代進步太快了。
Google宣布PaLM 2擅長高級推理任務不到一天,而Anthropic的Claude現在可以在不到一分鐘的時間內消化10萬個token。人工智慧的進步確實令人矚目。
#不過,如果你輸入的token少於9K,Antropic呼叫的似乎就是之前的模型了。
##過去幾年,史丹佛大學Hazy Research實驗室一直在從事一項重要的工作,就是增加模型的序列長度。 在他們看來,這將開啟機器學習基礎模型的新時代。
研究人員在22年提出的FlashAttention演算法證明了32k可行性。
就連Sam Altman都稱為我們要的是32k token。
其實,不只32k,現在100k都實現了,百萬token也不遠了。
「絕對太野了!幾年後,支援100萬的token上下文長度會不會成為可能?」
前段時間,來自DeepPavlov、AIRI、倫敦數學科學研究所的研究人員發布了一篇技術報告,使用循環記憶Transformer(RMT)將BERT的有效上下文長度提升到「前所未有的200萬tokens」,同時保持了很高的記憶檢索準確性。
論文網址:https://arxiv.org/abs/2304.11062
# ###############該方法可以儲存和處理局部和全局訊息,並透過使用循環讓資訊在輸入序列的各segment之間流動。 ############不過,雖然RMT可以不增加記憶體消耗,可以擴展到近乎無限的序列長度,但仍然存在RNN中的記憶衰減問題,並且需要更長的推理時間。 ############其實,RMT背後是全新的記憶機制。 ############具體操作方法是,在不改變原始Transformer模型的前提下,透過在輸入或輸出序列中添加一個特殊的memory token,然後對模型進行訓練以控制記憶操作和序列表徵處理。 ######與Transformer-XL相比,RMT需要的記憶體較少,並且可以處理更長序列的任務。
當然,在最終實現百萬token之前,Claude 100k已經是相當大的起步了。
以上是一次讀完半本「三體」! GPT-4最強競品突然升級10萬token,啃論文程式碼示範全搞定的詳細內容。更多資訊請關注PHP中文網其他相關文章!