GPT-4的流暢表現如何？人類寫作能被超越嗎？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT-4的流暢表現如何？人類寫作能被超越嗎？

PHPz

Sep 23, 2023 pm 12:05 PM

ai模型

摘要生成是自然語言生成（NLG）的任務，其主要目的是將長篇文字壓縮成簡短的摘要。它可以應用於各種內容，如新聞文章、原始碼和跨語言文本等

隨著大模型（LLM）的出現，傳統的在特定資料集上進行微調的方法已經不在適用。

我們不禁會問，LLM 在產生摘要方面效果到底如何？

為了回答這個問題，來自北京大學的研究人員在論文《Summarization is (Almost) Dead》中進行了詳細的探討。他們利用人類產生的評估資料集評估了LLM在各種摘要任務（單一新聞、多條新聞、對話、原始程式碼和跨語言摘要）上的表現

在對LLM產生的摘要、人工撰寫的摘要和微調模型產生的摘要進行定量和定性的比較後，發現LLM生成的摘要明顯受到人類評估者的喜愛

在對過去3年發表在ACL、EMNLP、NAACL和COLING上的100篇與摘要方法相關的論文進行抽樣和檢查後，研究人員發現大約70%的論文的主要貢獻是提出了一種總結摘要方法並在標準數據集上驗證了其有效性。因此，該研究表示「摘要（幾乎）已死（Summarization is (Almost) Dead）」

儘管如此，研究者表示該領域仍面臨一些挑戰，例如需要更高品質的參考資料集和改進評估方法等問題仍需解決

GPT-4的流暢表現如何？人類寫作能被超越嗎？

#論文連結：https://arxiv.org/pdf/2309.09558. pdf

方法及結果

該研究使用最新的資料來建構資料集，每個資料集由50 個樣本組成。

在執行單一新聞、多個新聞和對話摘要任務時，我們使用了與 CNN/DailyMail、Multi-News 資料集建立方法相似的方法進行模擬。對於跨語言摘要任務，我們採用了與 Zhu 等人提出的方法相同的策略。至於程式碼摘要任務，則採用了 Bahrami 等人提出的方法

資料集建構完成之後，接下來就是方法了。具體來說，針對單一新聞任務本文採用 BART 和 T5 ；多條新聞任務採用 Pegasus 和 BART；T5 和 BART 用於對話任務；跨語言任務使用 MT5 和 MBART ；原始碼任務使用 Codet5 。

在這項實驗中，研究採用了人類評估員來比較不同摘要的整體品質。根據圖1的結果顯示，LLM產生的摘要在所有任務中都表現出優於人工生成的摘要和微調模型生成的摘要的特徵

GPT-4的流暢表現如何？人類寫作能被超越嗎？

這引發了一個問題：為什麼LLM 能夠超越人類撰寫的摘要，而傳統上人們認為這些摘要是完美無缺的。此外，初步觀察表明，LLM 產生的摘要非常流暢和連貫

本文進一步招募註釋者來識別人類和LLM 生成摘要句子中的幻覺問題，結果如表1 所示，與GPT-4 產生的摘要相比，人工書寫的摘要表現出相同或更高數量的幻覺。在多個新聞和程式碼摘要等特定任務中，人工編寫的摘要表現出明顯較差的事實一致性。

GPT-4的流暢表現如何？人類寫作能被超越嗎？

表2顯示了人工撰寫的摘要和GPT-4生成摘要中出現幻覺的比例

GPT-4的流暢表現如何？人類寫作能被超越嗎？

本文也發現人工編寫的參考摘要有這樣一個問題，即缺乏流暢性。如圖 2 (a) 所示，人工編寫的參考摘要有時存在資訊不完整的缺陷。並且在圖 2 (b) 中，一些由人工編寫的參考摘要會出現幻覺。

GPT-4的流暢表現如何？人類寫作能被超越嗎？

本研究也發現微調模型產生的摘要通常具有固定且嚴格的長度，而LLM能夠根據輸入資訊調整輸出長度。此外，當輸入包含多個主題時，微調模型產生的摘要對主題的覆蓋率較低，如圖3所示，而LLM在生成摘要時能夠捕獲所有主題

GPT-4的流暢表現如何？人類寫作能被超越嗎？

根據圖4的結果可知，人類對大型模型的偏好分數超過50%，這表明人們對其摘要有很強的偏好，並且凸顯了LLM在文本摘要方面的能力

GPT-4的流暢表現如何？人類寫作能被超越嗎？

以上是GPT-4的流暢表現如何？人類寫作能被超越嗎？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年