検索
ホームページテクノロジー周辺機器AIGPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?

要約生成は自然言語生成 (NLG) のタスクであり、その主な目的は長いテキストを短い要約に圧縮することです。ニュース記事、ソース コード、クロスランゲージ テキストなど、さまざまなコンテンツに適用できます。

ラージ モデル (LLM) の出現により、従来の細かいモデルは、 -特定のデータセットでのチューニング方法は適用されなくなりました。

LLM はサマリーの生成にどの程度効果があるのか​​、疑問に思わずにはいられません。

この質問に答えるために、北京大学の研究者は「要約は(ほぼ)死んだ」という論文で詳細な議論を行いました。彼らは、人間が生成した評価データセットを使用して、さまざまな要約タスク (単一のニュース、複数のニュース、ダイアログ、ソース コード、および言語間の要約) における LLM のパフォーマンスを評価しました。LLM が生成した要約、人間が作成した要約、および微調整されたモデルによって生成された要約により、LLM によって生成された要約が人間の評価者に非常に好まれていることが明らかになりました。 、NAACL、およびCOLINGを3年間で調査した結果、論文の約70%の主な貢献は要約要約方法を提案し、それを標準データに使用することであったことが判明し、その有効性はセットで検証されました。したがって、この研究では「要約は(ほぼ)死んだ」と述べられています。

それにもかかわらず、研究者らは、この分野は依然としていくつかの課題に直面していると述べています。たとえば、品質などのより高度な問題の必要性などです。参照データセットと改善された評価方法はまだ解決する必要があります

論文リンク: https://arxiv.org/pdf/2309.09558.pdf

#方法と結果

GPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?

##この研究では、最新のデータを使用してデータセットを構築します。各データセットは 50 個のサンプルで構成されます。

単一のニュース、複数のニュース、および会話の要約タスクを実行する場合、CNN/DailyMail およびマルチニュースのデータ セット構築方法と同様の方法をシミュレーションに使用しました。言語間の要約タスクについては、Zhu et al. が提案したものと同じ戦略を採用します。コード要約タスクに関しては、Bahrami らによって提案された方法が使用されます。

データセットが構築されたら、次のステップは方法です。具体的には、この記事では、単一のニュース タスクに BART と T5、複数のニュース タスクに Pegasus と BART、対話タスクに T5 と BART、言語をまたがるタスクに MT5 と MBART、ソース コード タスクに Codet5 を使用します。

この実験では、人間の評価者を使用して、さまざまな要約の全体的な品質を比較しました。図 1 の結果によると、LLM によって生成された要約は、すべてのタスクにおいて、手動で生成された要約および微調整モデルによって生成された要約よりも優れています。

これは、伝統的に完璧だと考えられている人間が書いた要約をなぜ LLM が上回ることができるのかという疑問を引き起こします。さらに、予備的な観察では、LLM が生成した要約は非常にスムーズで一貫性があることが示されています。

この論文では、人間の要約文と LLM が生成した要約文における幻覚の問題を特定するためにアノテーターをさらに募集し、その結果が示されています。表 1 に示すように、人間が書いた要約は、GPT-4 によって生成された要約と比較して、同じかそれ以上の数の幻覚を示します。複数のニュース項目やコードの要約などの特定のタスクでは、人間が書いた要約は事実との一貫性が著しく劣ります。

#表 2 は、人間が書いた要約と GPT-4 が生成した要約における幻覚の割合を示しています

GPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?

この記事では、人間が作成した参考資料の要約には流暢さに欠ける問題があることもわかりました。図 2 (a) に示すように、人間が作成した参考資料の概要には、情報が不完全な場合があります。また、図 2(b) では、人間が書いた参考資料の要約の一部が幻覚を示しています。

この研究では、モデルの微調整によって生成される要約は通常、固定かつ厳密な長さを持つのに対し、LLM は入力情報に基づいて出力の長さを調整できることもわかりました。さらに、入力に複数のトピックが含まれている場合、図 3 に示すように、微調整モデルによって生成される要約ではトピックの範囲が低くなりますが、LLM は要約の生成時にすべてのトピックを取得できます

GPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?

#図 4 の結果によると、大規模モデルに対する人間の好みスコアが 50% を超えていることがわかります。これは、人々がその概要とモデルに強い好みを持っていることを示しています。テキスト要約における LLM の機能を強調します

GPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?

以上がGPT-4のパフォーマンスはどのくらいスムーズですか?人間の文章は超えられるのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
LLMSでのツール呼び出しLLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力:勝者、敗者、および機会AIに関する国連入力:勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶ生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますテッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか?グラフデータベースとは何ですか?Apr 14, 2025 am 11:19 AM

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング:戦略、テクニック、およびPythonの実装LLMルーティング:戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール