首頁  >  文章  >  科技週邊  >  生成式AI模型大PK-GPT-4、Claude 2.1和Claude 3.0 Opus

生成式AI模型大PK-GPT-4、Claude 2.1和Claude 3.0 Opus

王林
王林原創
2024-06-07 18:32:371049瀏覽

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

想了解更多AIGC的內容,請造訪:

51CTO AI.x社群

https ://www.51cto.com/aigc/

簡介

目前,RAG(檢索增強生成)系統的新評估似乎每天都在發布,其中許多都集中在有關框架的檢索階段。然而,生成方面——模型如何合成和表達這些檢索到的信息,在實踐中可能具有同等重要的意義。許多實際應用中的案例證明,系統不僅要求從上下文中返回數據,還需將這些資訊轉化為更複雜的回應。

為此,我們先後進行了幾個實驗,對GPT-4、Claude 2.1和Claude 3 Opus進行了三種模型的生成能力進行了評估和比較。本文將詳細介紹我們的研究方法、結果和在過程中遇到的這些模型的細微差別,並說明為什麼這些內容對使用生成式人工智慧進行建構的人來說非常重要。

有興趣的讀者如果想重現上述實驗的結果,那麼實驗中所需的一切都可以從GitHub儲存庫(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補充說明

  • 儘管最初的發現表明Claude的表現優於GPT-4,但隨後的測試表明,隨著策略提示工程技術的出現,GPT-4在更廣泛的評估中表現出了卓越的性能。總之,RAG系統中固有的模型行為和提示工程當中還存在著許多的問題。
  • 只需在提示範本中簡單地添加一句“請解釋自己,然後回答問題”,即可顯著提高(超過兩倍)GPT-4的性能。很明顯,當LLM說出答案時,這似乎有助於進一步展開有關想法。透過解釋,模型有可能在嵌入/注意力空間中重新執行正確的答案。

RAG階段與生成的重要性

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

#圖1:作者創建的圖表

雖然在一個檢索增強生成系統中檢索部分負責識別和檢索最相關的訊息,但正是生成階段獲取這些原始數據,並將其轉換為連貫、有意義和符合上下文的回應。生成步驟的任務是合成檢索到的信息,填補空白信息,並以易於理解和用戶查詢相關的方式呈現。 生成步驟的任務是合成檢索到的信息,填補空白信息,並以易於理解和用戶查詢相關的方式呈現。透過生成階段,空白資訊被填充,以便實現對相關資訊的完整性和易於理解的解釋。同時,使用者可以根據需要查詢相關的方式呈現的資訊。 透過生成階段的處理,透過填充空白訊息,使得最終產生的結果更加完整且易於理解。這提供了一種理解和查詢相關資訊的方式,有助於使用者進行更深入的探索和研究。

在許多現實世界的應用中,RAG系統的價值不僅在於它們定位特定事實或資訊的能力,還在於它們在更廣泛的框架內整合和情境化資訊的能力。生成階段使RAG系統能夠超越簡單的事實檢索,並提供真正智慧和自適應的回應。

測試#1:日期映射

我們執行的初始測試包括從兩個隨機檢索的數字中產生一個日期字串:一個表示月份,另一個表示日期。模型的任務是:

  • 檢索隨機數#1
  • 隔離最後一位並遞增1
  • 根據結果為我們的日期字串產生一個月
  • 檢索隨機數字#2
  • 從隨機數2產生日期字串的日期

#例如,隨機數4827143和17表示4月17日。

這些數字被放置在不同深度的不同長度的上下文中。模型最初在完成這項任務時經歷了相當困難的時期。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

圖2:初始測試結果

雖然這兩個模型都表現不佳,但在我們的初步測試中,Claude 2.1的表現明顯優於GPT-4,成功率幾乎翻了四倍。正是在這裡,Claude模型的冗長本性——提供詳細、解釋性的回答——似乎給了它一個明顯的優勢,與GPT-4最初簡潔的回答相比,結果更準確。

在這些意想不到的實驗結果的推動下,我們在實驗中引入了一個新的變數。我們指示GPT-4“解釋自己,然後回答問題”,這一提示鼓勵了類似於Claude模型自然輸出的更詳細的響應。因此,這微小調整的影響還是深遠的。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

图3:有针对性提示结果的初始测试

GPT-4模型的性能显著提高,在随后的测试中取得了完美的结果。Claude模型的成绩也有所改善。

这个实验不仅突出了语言模型处理生成任务的方式的差异,还展示了提示工程对其性能的潜在影响。Claude的优势似乎是冗长,事实证明这是GPT-4的一种可复制策略,这表明模型处理和呈现推理的方式会显著影响其在生成任务中的准确性。总的来说,在我们的所有实验中,包括看似微小的“解释自己”这句话,都在提高模型的性能方面发挥了作用。

进一步的测试和结果

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

图4:用于评估生成的四个进一步测试

我们又进行了四次测试,以评估主流模型将检索到的信息合成并转换为各种格式的能力:

  • 字符串连接:将文本片段组合成连贯的字符串,测试模型的基本文本操作技能。
  • 货币格式:将数字格式化为货币,四舍五入,并计算百分比变化,以评估模型的精度和处理数字数据的能力。
  • 日期映射:将数字表示转换为月份名称和日期,需要混合检索和上下文理解。
  • 模运算:执行复数运算以测试模型的数学生成能力。

不出所料,每个模型在字符串连接方面都表现出了强大的性能,这也重申了以前的理解,即文本操作是语言模型的基本优势。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

图5:货币格式化测试结果

至于货币格式化测试,Claude 3和GPT-4的表现几乎完美无瑕。Claude 2.1的表现总体上较差。准确度在标记长度上变化不大,但当指针更接近上下文窗口的开头时,准确度通常会更低。

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

图6:正式的来自Haystack网站的测试结果

尽管在一代测试中取得了出色的结果,但Claude 3的准确性在一个仅用于检索的实验中有所下降。从理论上讲,简单地检索数字也应该比操纵数字更容易——这使得性能的下降令人惊讶,也是我们计划进一步测试的领域。如果有什么不同的话,这种违反直觉的下降只会进一步证实这样一种观点,即在使用RAG开发时,检索和生成都应该进行测试。

结论

通过测试各种生成任务,我们观察到,虽然Claude和GPT-4这两个模型都擅长字符串操作等琐碎任务,但在更复杂的场景中,它们的优势和劣势变得显而易见(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在数学方面仍然不太好!另一个关键结果是,“自我解释”提示的引入显著提高了GPT-4的性能,强调了如何提示模型以及如何阐明其推理对实现准确结果的重要性。

这些发现对LLM的评估具有更广泛的意义。当比较像详细的Claude和最初不那么详细的GPT-4这样的模型时,很明显,RAG评估(https://arize.com/blog-course/rag-evaluation/)标准必须超越以前仅重视正确性这一点。模型响应的冗长引入了一个变量,该变量可以显著影响他们的感知性能。这种细微差别可能表明,未来的模型评估应将平均答复长度视为一个值得注意的因素,从而更好地了解模型的能力,并确保更公平的比较。

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

链接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

以上是生成式AI模型大PK-GPT-4、Claude 2.1和Claude 3.0 Opus的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn