摘要生成是自然語言生成(NLG)的任務,其主要目的是將長篇文字壓縮成簡短的摘要。它可以應用於各種內容,如新聞文章、原始碼和跨語言文本等
隨著大模型(LLM)的出現,傳統的在特定資料集上進行微調的方法已經不在適用。
我們不禁會問,LLM 在產生摘要方面效果到底如何?
為了回答這個問題,來自北京大學的研究人員在論文《Summarization is (Almost) Dead》中進行了詳細的探討。他們利用人類產生的評估資料集評估了LLM在各種摘要任務(單一新聞、多條新聞、對話、原始程式碼和跨語言摘要)上的表現
在對LLM產生的摘要、人工撰寫的摘要和微調模型產生的摘要進行定量和定性的比較後,發現LLM生成的摘要明顯受到人類評估者的喜愛
在對過去3年發表在ACL、EMNLP、NAACL和COLING上的100篇與摘要方法相關的論文進行抽樣和檢查後,研究人員發現大約70%的論文的主要貢獻是提出了一種總結摘要方法並在標準數據集上驗證了其有效性。因此,該研究表示「摘要(幾乎)已死(Summarization is (Almost) Dead)」
儘管如此,研究者表示該領域仍面臨一些挑戰,例如需要更高品質的參考資料集和改進評估方法等問題仍需解決
#論文連結:https://arxiv.org/pdf/2309.09558. pdf
方法及結果
該研究使用最新的資料來建構資料集,每個資料集由50 個樣本組成。
在執行單一新聞、多個新聞和對話摘要任務時,我們使用了與 CNN/DailyMail、Multi-News 資料集建立方法相似的方法進行模擬。對於跨語言摘要任務,我們採用了與 Zhu 等人提出的方法相同的策略。至於程式碼摘要任務,則採用了 Bahrami 等人提出的方法
資料集建構完成之後,接下來就是方法了。具體來說,針對單一新聞任務本文採用 BART 和 T5 ;多條新聞任務採用 Pegasus 和 BART;T5 和 BART 用於對話任務;跨語言任務使用 MT5 和 MBART ;原始碼任務使用 Codet5 。
在這項實驗中,研究採用了人類評估員來比較不同摘要的整體品質。根據圖1的結果顯示,LLM產生的摘要在所有任務中都表現出優於人工生成的摘要和微調模型生成的摘要的特徵
這引發了一個問題:為什麼LLM 能夠超越人類撰寫的摘要,而傳統上人們認為這些摘要是完美無缺的。此外,初步觀察表明,LLM 產生的摘要非常流暢和連貫
本文進一步招募註釋者來識別人類和LLM 生成摘要句子中的幻覺問題,結果如表1 所示,與GPT-4 產生的摘要相比,人工書寫的摘要表現出相同或更高數量的幻覺。在多個新聞和程式碼摘要等特定任務中,人工編寫的摘要表現出明顯較差的事實一致性。
表2顯示了人工撰寫的摘要和GPT-4生成摘要中出現幻覺的比例
本文也發現人工編寫的參考摘要有這樣一個問題,即缺乏流暢性。如圖 2 (a) 所示,人工編寫的參考摘要有時存在資訊不完整的缺陷。並且在圖 2 (b) 中,一些由人工編寫的參考摘要會出現幻覺。
本研究也發現微調模型產生的摘要通常具有固定且嚴格的長度,而LLM能夠根據輸入資訊調整輸出長度。此外,當輸入包含多個主題時,微調模型產生的摘要對主題的覆蓋率較低,如圖3所示,而LLM在生成摘要時能夠捕獲所有主題
根據圖4的結果可知,人類對大型模型的偏好分數超過50%,這表明人們對其摘要有很強的偏好,並且凸顯了LLM在文本摘要方面的能力
以上是GPT-4的流暢表現如何?人類寫作能被超越嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境