讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 13, 2023 am 08:26 AM

ai模型

在最新的人工智慧領域動態中，人工產生的提示（prompt）品質對大語言模型（LLM）的反應精度有著決定性影響。 OpenAI 提出的建議指出，精確、詳細且具體的問題對於這些大語言模型的表現至關重要。然而，普通用戶是否能夠確保他們的問題對於 LLM 來說足夠清晰明了？

需要重新寫的內容是：值得注意的是，人類在某些情境下的自然理解能力與機器的解讀有明顯差異。例如，「偶數月」這個概念，在人類看來很明顯指的是二月、四月等月份，而GPT-4卻可能將其誤解為天數為偶數的月份。這不僅揭示了人工智慧在理解日常情境上的局限性，也促使我們反思如何更有效地與這些大型語言模型溝通。隨著人工智慧技術的不斷進步，如何彌合人類與機器在語言理解方面的鴻溝，是一個未來研究的重要課題

關於此事，加州大學洛杉磯分校（UCLA ）的顧全全教授領導的通用人工智慧實驗室發布了一份研究報告，提出了一種創新的解決方案，針對大語言模型（如GPT-4）在問題理解上的歧義問題。這項研究是由鄧依荷、張蔚桐和陳子翔博士生完成的

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現 #論文網址：https://arxiv.org/pdf/2311.04205.pdf

專案網址: https://uclaml.github.io/Rephrase-and -Respond 讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

重寫後的中文內容為：此方案的核心是讓大型語言模型對提出的問題進行複述和擴寫，以提高回答的準確性。研究發現，經過GPT-4重新表達的問題變得更加詳細，問題格式也更清楚。這種複述和擴寫的方法顯著提高了模型的回答準確率。實驗表明，一個經過良好複述的問題使得回答的準確率從原來的50%提高到接近100%。這項效能提升不僅展示了大型語言模型自我改進的潛力，也為人工智慧如何更有效地處理和理解人類語言提供了新的視角

方法

#基於上述的發現，研究者提出了一個簡單但效果顯著的提示詞(prompt)：「Rephrase and expand the question, and respond」（簡稱RaR）。這個提示詞直接提高了 LLM 回答問題的質量，展示了在問題處理上的一個重要提升。

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

############研究團隊也提出了RaR 的變體，稱為“Two-step RaR”，以充分利用像GPT-4 這樣的大模型複述問題的能力。這種方法遵循兩個步驟：首先，針對給定的問題，使用一個專門的 Rephrasing LLM 產生一個複述問題；其次，將原始問題和複述後的問題結合起來，用於提示一個 Responding LLM 進行回答。 #####################結果######################研究人員進行了不同任務的實驗，結果表明，無論是單步RaR 還是兩步RaR，都能有效提高GPT4 的回答準確率。值得注意的是，RaR 在原本對 GPT-4 極具挑戰性的任務上展現出了顯著的改進效果，甚至在某些情況下準確率接近 100%。研究團隊總結了以下兩點關鍵結論：#############1. 複述並擴充（RaR）提供了一種即插即用的黑箱提示方法，能夠有效地提高LLM在各種任務上的表現。 ############2. 在評估 LLM 在問答（QA）任務上的表現時，檢查問題的品質至關重要。 ################

研究人员采用了Two-step RaR方法进行研究，以探究GPT-4、GPT-3.5和Vicuna-13b-v.15等不同模型的表现。实验结果表明，对于那些具备更复杂架构和更强大处理能力的模型，例如GPT-4，RaR方法可以显著提升其处理问题的准确性和效率。而对于较为简单的模型，例如Vicuna，尽管改进幅度较小，但仍然表明了RaR策略的有效性。基于此，研究人员进一步检查了不同模型复述后问题的质量。对于较小模型的复述问题，有时可能会扰乱问题的意图。而像GPT-4这样的高级模型提供的复述问题与人类的意图相符，并且可以增强其他模型的回答效果

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

这一发现揭示了一个重要的现象：不同等级的语言模型复述的问题在质量和效果上存在差异。特别是像 GPT-4 这样的高级模型，它复述的问题不仅能够为自身提供更清晰的问题理解，还能够作为一种有效的输入，提高其他较小模型的性能。

与思维链（CoT）的区别

为了理解 RaR 与思维链（CoT）之间的区别，研究人员提出了它们的数学表述，并阐明了 RaR 在数学上与 CoT 的不同之处，以及它们如何可以轻松结合。

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

在深入探讨如何增强模型推理能力之前，这项研究指出应该提高问题的质量，以确保能正确评估模型的推理能力。例如，“硬币翻转”问题，人们发现GPT-4将“翻转（flip）”理解为随机抛掷的动作，与人类的意图不同。即使使用“让我们逐步思考”来引导模型进行推理，这种误解仍会在推理过程中存在。只有在澄清问题之后，大型语言模型才会回答预期的问题

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現

进一步的，研究人员注意到，除了问题文本之外，用于 few-shot CoT 的问答示例也是由人类编写的。这就引发了一个问题：当这些人工构造的示例存在缺陷时，大语言模型（LLM）会作出怎样的反应？该研究提供了一个很有意思的例子，并发现不良的 few-shot CoT 示例可能会对 LLM 产生负面影响。以 “末尾字母连接” 任务为例，先前使用的问题示例在提高模型性能方面显示出了积极效果。然而，当提示逻辑发生变化，比如从找到末尾字母变成找到首位字母，GPT-4 却给出了错误的答案。这一现象突显了模型对人工示例的敏感性。

讓大型AI模型自主提問：GPT-4打破與人類對話的障礙，展現更高層次的表現