ホームページ > 記事 > テクノロジー周辺機器 > 人間の創造プロセスに則ったAIGC:成長ストーリーを自動生成するモデルが登場
今日の人工知能の分野では、AI ライティング成果物が次々と登場し、技術や製品は日々変化しています。
OpenAI が 2 年前にリリースした GPT-3 がまだ文章力に欠けている場合、少し前に生成された ChatGPT の結果は「素晴らしい文章、完全なプロット」とみなすことができます。 、そして論理的論理「それは調和と調和です。」
AIが文章を書き始めたら、人間とは本当に何の関係もなくなるという人もいます。
しかし、人間であろうとAIであろうと、一度「要件文字数」が増えてしまうと、記事の「コントロール」は難しくなってしまいます。
最近、中国の AI 研究科学者 Tian Yuandong と他の数人の研究者が新しい言語モデル Re^3 をリリースしました。この研究は EMNLP 2022 にも選ばれました。
紙のリンク: https://arxiv.org/pdf/2210.06774.pdf
Tian Yuandong はかつて Zhihu でこのモデルを紹介しました:
Re^3 のアイデアは非常にシンプルです。プロンプトを設計することで、強力な一貫性の話なので、大規模なモデルを微調整する必要はまったくありません。私たちは、言語モデルの単語ごとに生成する線形ロジックを飛び出し、まず計画段階でストーリーの登場人物、さまざまな属性、キャラクターの輪郭を生成し、次にストーリーの輪郭とキャラクターの輪郭を与える階層的な生成方法を使用します。ドラフトステージで役割を設定し、特定の段落を繰り返し生成すると、これらの特定の段落はリライトステージによってフィルター処理され、前の段落と関連性の高い生成された段落が選択され、密接に関連していない段落は破棄されます (これには小規模なモデルのトレーニングが必要です)。そして最後に、編集段階でいくつかの明らかな事実上の誤りを修正します。
Re^3 のアイデアは、再帰的なリプロンプトと調整を通じて長いストーリーを生成することであり、これは人間の作家の創造的なプロセスにより沿ったものです。 Re^3 は、人間の執筆プロセスを計画、草案、書き直し、編集の 4 つのモジュールに分割します。
#計画モジュール
下の図 2 に示すように、プランニングモジュールは、ストーリーの前提(Premise)を背景、キャラクター、ストーリーの概要に拡張します。まず、背景は、GPT3-Instruct-175B (Ouyang et al., 2022) を使用して取得された、ストーリーの前提の単純な 1 文の拡張であり、その後、GPT3-Instruct175B がキャラクター名を再生成し、前提と背景に基づいてキャラクターの説明を生成します。 ; 最後に、メソッドは GPT3-Instruct175B にストーリーの概要を書くように促します。計画モジュールのコンポーネントはプロンプト自体によって生成され、何度も使用されます。
#ドラフトモジュール
計画モジュールによって得られた各結果について概要を作成すると、ドラフト モジュールは引き続きいくつかのストーリーの段落を生成します。各段落は、再帰的再プロンプトによって形成された構造化プロンプトから生成された固定長の継続です。下図のモジュールは、下の図 3 に示されています。#モジュールを書き換えます
ジェネレーターの最初の出力は次のとおりです。多くの場合、人々が完成させた最初の草稿や、フィードバックに基づいて記事を書き直す必要があるかもしれない第 2 の草稿など、低品質です。
Rewrite モジュールは、以下の図 4 に示すように、前の段落との一貫性および現在のアウトライン ポイントとの関連性に基づいて、Draft モジュールの出力を並べ替えることによって、書き換えプロセスをシミュレートします。
編集モジュール #大幅な書き換えとは異なり、編集モジュールは企画、立案、書き換えモジュールを経て生成されます。生成されたコンテンツをさらに改善するための段落。具体的には、長い間続く事実の不一致を排除することが目標です。校正中に事実上の小さな不連続性を発見した場合、大まかな記事計画を大幅に修正したり実質的に書き直したりするのではなく、問題のある詳細を編集するだけで済みます。編集モジュールは、以下の図 5 に示すように、事実上の矛盾を検出し、それらを修正するという 2 つのステップで人間によるオーサリングのプロセスを模倣します。
評価セッションでは、研究者は簡単な最初の A を実行するタスクを設定します。先ほどの状況からストーリーが生まれます。 「ストーリー」をルールベースの方法で定義するのは難しいため、許容可能な出力にルールベースの制約を課さず、代わりに人間が注釈を付けたいくつかの指標を通じて評価しました。初期前提を生成するために、研究者らは GPT3-Instruct-175B を使用して 100 の異なる前提を取得するよう促しました。 ベースライン 以前の方法は Re^3 の直接比較と比較して短編小説に重点を置いていたため、困難でした。 。そこで研究者らは、GPT3-175B に基づく次の 2 つのベースラインを使用しました: 1. ローリング、以前の状況と以前に生成されたすべてのストーリーを使用して、GPT3-175B を通じて一度に 256 個のトークンを生成します。テキストはプロンプトとして使用され、トークンが 768 を超える場合、プロンプトは切り詰められたままになります。したがって、「ローリング ウィンドウ」の最大コンテキスト長は 1024 で、これは RE^3 で使用される最大コンテキスト長と同じです。 3072 個のトークンを生成した後、研究者らは RE^3 と同じストーリー終了メカニズムを使用しました。 2. ROLLING-FT は ROLLING と同じですが、GPT3-175B が最初に、少なくとも 3000 個のトークンを持つ WritingPrompts ストーリーの数百の段落を微調整する点が異なります。 #指標 研究者が使用するいくつかの評価指標は次のとおりです。 1. 興味深い。読者に興味を持ってもらえるようにしましょう。 2. 継続性。プロットは一貫しています。 3. 関連性。オリジナルに忠実であり続けてください。 4. ヒューマノイド。人間が書いたと判断されます。 さらに、研究者らは、生成されたストーリーで次の側面で記述上の問題が発生した回数も追跡しました: 1. 物語。物語やスタイルにおける衝撃的な変化。 2. 矛盾。事実が間違っているか、非常に奇妙な詳細が含まれています。 3. 混乱。混乱する、または理解するのが難しい。 4. 再現性。高い再現性。 #結果は ## に示されています。表 1 に示すように、Re^3 は、一貫した全体的なプロットを維持しながら、予想されるイベントに基づいて長い物語を書くのに非常に効果的であり、人間の執筆プロセスや再プロンプト生成方法に触発された研究者の設計選択を検証します。 ROLLING および ROLLING-FT と比較して、Re^3 は一貫性と関連性の両方を大幅に向上させます。注釈者はまた、Re^3 のストーリーには「冗長な記述の問題が大幅に少ない」とマークしました。 Re^3 は絶対的な意味で強力なパフォーマンスを示しています。アノテーターは、2 つの比較において、Re^3 のストーリーのそれぞれ 83.3% と 80.0% が人間によって書かれたと考えています。表 2 は、Re^3 から大幅に要約されたストーリーの例を示しており、強い一貫性と文脈の関連性を示しています。 , 研究者らは、Re^3 にはまだ改善の余地がたくさんあることを定性的に観察しています。 2 つの一般的な問題を表 3 に示します。まず、Re^3 はほぼ常にストーリーの前提にある程度従うものの、ベースラインのストーリーとは異なり、前提のすべての部分を捉えているわけではなく、計画モジュールによって生成された部分的な概要に従わない場合もあります (例: 表 3 の最初の部分)。ストーリーとあらすじ)。第二に、書き換えモジュール、特に編集モジュールの失敗により、依然としていくつかの混乱を招く文章や矛盾した記述が存在します。たとえば、表 3 では、登場人物のジャクソンは、いくつかの場所で矛盾したアイデンティティを持っています。
ただし、ローリング ウィンドウ法 (ローリング ウィンドウ) とは異なり、Re^3 の計画法は「自己修正」が可能です。 、元のプロットに戻ります。表 3 のストーリーの後半は、この能力を示しています。 分析
#表 4 は、人間の計画と書き換えのプロセスを模倣する「計画」モジュールと「再書き込み」モジュールが、プロット全体に影響を与えるため、前提条件の一貫性と関連性が非常に重要です。ただし、「編集」モジュールはこれらの指標にはほとんど寄与しません。研究者らはまた、Re^3 の最終ストーリーには、編集モジュールでは対処されていない一貫性の問題がまだ多くあるが、これらの問題は注意深い人間の編集者によって解決できる可能性があることも定性的に観察しました。 「編集」モジュールのさらなる分析 ##研究者は、制御された環境を使用して、編集モジュールが少なくとも役割ベースの事実の不一致を検出できます。編集モジュール全体との混同を避けるために、検出サブシステムは STRUCTURED-DETECT と呼ばれます。 表 5 に示すように、STRUCTUREDDETECT は、標準の ROC-AUC 分類メトリックに従ってロールベースの不一致を検出する場合、両方のベースラインを上回ります。 ENTAILMENT システムの ROC-AUC スコアは、偶然のパフォーマンス (0.5) よりわずかに優れており、検出システムが圧倒的に正確でなければならないという中心的な課題を浮き彫りにしています。さらに、STRUCTURED-DETECT は、より長い段落に合わせて拡張できるように設計されています。研究者らは、ベースラインと比較して入力が長い場合の評価では、パフォーマンスのギャップが拡大すると仮説を立てました。 この簡素化された環境でも、すべてのシステムの絶対的なパフォーマンスは依然として低いです。さらに、生成された完全なストーリーの多くには、現在のシーンとの背景の不一致など、キャラクター以外の不一致が含まれています。研究者らは、GPT-3 編集 API が不一致を検出した後に修正する能力を正式には分析していませんが、孤立した詳細は修正できるものの、より大きな変更を処理する場合には困難を伴うことも観察しました。 まとめると、検出および修正サブシステムからの複合エラーにより、この研究の現在の編集モジュールが不必要な変更を同時に導入することなく、数千の単語にわたる事実の一貫性を効果的に改善することが困難になります。 。 評価
研究者たちは、Re^3 のさまざまなモジュールについて議論しました。相対的な貢献: 計画、草案、書き直し、編集、および各モジュールでのアブレーション実験の順番の実施。例外は Draft モジュールです。Draft モジュールなしでシステムがどのように機能するかは不明です。
以上が人間の創造プロセスに則ったAIGC:成長ストーリーを自動生成するモデルが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。