大規模な生成モデルの継続的な進歩により、生成されるコーパスは徐々に人間のそれに近づきつつあります。大型モデルは無数の店員の手を解放していますが、本物を偽造するその強力な能力は一部の犯罪者にも利用され、一連の社会問題を引き起こしています。
論文アドレス: https://arxiv.org/abs/2305.18149
- コード アドレス (MindSpore): https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
- コード アドレス (PyTorch) :https://github.com/YuchuanTian/AIGC_text_detector
- ##はじめにWith As大規模な言語モデルの生成効果がますます現実的になる中、さまざまな業界が信頼性の高い AI 生成のテキスト検出器を緊急に必要としています。ただし、コーパス検出に対する要件は業界によって異なります。たとえば、学術界では一般に、大規模で完全な学術文書を検出する必要がありますが、ソーシャル プラットフォームでは、比較的短く断片的なフェイク ニュースを検出する必要があります。しかし、既存の検出器ではさまざまなニーズに対応できないことがよくあります。たとえば、一部の主流の AI テキスト検出器は、一般に、短いコーパスに対する予測機能が不十分です。
これらの例から、次のことがわかります。 AIによって生成された短答を識別することは非常に困難です。この種のコーパスは人間との差が小さすぎて、その真の属性を厳密に判断することが困難です。したがって、単純に短いテキストに人間/AI として注釈を付け、テキスト検出のための従来の二値分類問題に従うことは不適切です。
この問題に対処するために、この研究では人間と AI の二項分類検出部分を部分的な PU (Positive-Unlabeled) 学習問題、つまり短い文で言えば人間の言語に変換します。はポジティブクラス (Positive) であり、機械語はラベルなしクラス (Unlabeled) であるため、トレーニング損失関数が改善されます。この改善により、さまざまな身体に対する検出器の分類パフォーマンスが大幅に向上しました。
アルゴリズムの詳細
従来の PU 学習設定では、2 分類モデルはポジティブ トレーニング サンプルとラベルなしトレーニング サンプルに基づいてのみ学習できます。一般的に使用される PU 学習方法は、PU 損失を定式化することで、負のサンプルに対応するバイナリ分類損失を推定することです。このうち、 は陽性サンプルと陽性ラベルによって計算された二値分類損失を表し、
はすべてのラベルなしサンプルを仮定して計算された損失を表します。二項分類損失;
は、陽性サンプルが陰性ラベルであると仮定して計算された二項分類損失を表します;
は、前の陽性サンプルの確率を表します。つまり、陽性サンプルはすべての PU サンプルの推定シェアに含まれます。従来の PU 学習では、通常、前の
は固定のハイパーパラメータに設定されます。ただし、テキスト検出シナリオでは、検出器はさまざまな長さのさまざまなテキストを処理する必要があり、さまざまな長さのテキストの場合、サンプルと同じ長さのすべての PU サンプル間の陽性サンプルの推定割合も異なります。したがって、この研究では PU 損失を改善し、長さに敏感なマルチスケール PU (MPU) 損失関数を提案します。
具体的には、この研究では、短いテキストの検出をモデル化するための抽象サイクル モデルを提案します。従来の NLP モデルがシーケンスを処理する場合、通常は RNN、LSTM などのマルコフ連鎖構造を持ちます。このタイプの循環モデルのプロセスは、通常、徐々に反復的なプロセスとして理解できます。つまり、各トークン出力の予測は、前のトークンと前のシーケンスの予測結果を、このトークンの予測結果と変換およびマージすることによって取得されます。トークン。つまり、次のプロセスです。
この抽象モデルに基づいて事前確率を推定するには、次の出力を仮定する必要があります。モデルは、特定の文が肯定的であるということです。クラスの信頼度 (肯定的) は、サンプルがその人によって話されていると判断される確率です。各トークンの寄与サイズは文トークンの長さの反比例であり、それは正、つまりラベルなしであり、ラベルなしの確率は正である確率よりもはるかに大きいと想定されます。なぜなら、大規模モデルの語彙が徐々に人間の語彙に近づくにつれて、ほとんどの単語が AI と人間のコーパスの両方に出現するようになるからです。この単純化されたモデルと設定された正のトークン確率に基づいて、さまざまな入力条件下でのモデル出力の信頼度の合計期待値を見つけることによって、最終的な事前推定値が取得されます。
#理論的な導出と実験を通じて、テキストの長さが増加するにつれて事前確率が増加すると推定されます。最終的には安定します。テキストが長くなると、検出器がより多くの情報を捕捉できるようになり、テキストの「ソースの不確実性」が徐々に弱くなるため、この現象も予想されます。
その後、陽性サンプルごとに、サンプル長から取得した一意の事前分布に基づいて PU 損失が計算されます。最後に、短いテキストにはある程度の「不確実性」しかないため (つまり、短いテキストには一部の人物または AI のテキスト特徴も含まれる)、バイナリ損失と MPU 損失に重みを付けて、最終的な最適化目標として追加できます。 # ################################## さらに、MPU 損失はさまざまな長さのトレーニング コーパスに適応することに注意してください。既存の学習データが明らかに同種であり、コーパスの大部分が長大なテキストで構成されている場合には、MPU 手法の効果を十分に発揮できません。トレーニングコーパスの長さをより多様にするために、この研究では文レベルでのマルチスケーリングモジュールも導入しています。このモジュールは、トレーニング コーパス内のいくつかの文をランダムにカバーし、元の順序を維持したまま残りの文を再編成します。トレーニング コーパスのマルチスケール操作後、トレーニング テキストの長さが大幅に強化され、AI テキスト検出器のトレーニングに PU 学習が最大限に活用されています。 #上の表に示すように、著者はまず AI が生成した短いコーパス データでテストしました。 set Tweep-Fake MPU 損失の影響。このデータセットのコーパスはすべて Twitter 上の比較的短いセグメントです。また、著者は、従来の 2 つのカテゴリの損失を、従来の言語モデルの微調整に基づいた MPU 損失を含む最適化目標に置き換えます。改良された言語モデル検出器はより効果的で、他のベースライン アルゴリズムを上回ります。
著者は、chatGPT によって生成されたテキストもテストしました。従来の微調整後に得られた言語モデル検出器の方が優れています。短い文のパフォーマンスは悪いですが、同じ条件下で MPU メソッドでトレーニングされた検出器は、短い文では良好なパフォーマンスを示しますが、同時に完全なコーパスに対して大幅な効果の向上を達成できます。F1 スコアは 1% 増加し、 OpenAI と DetectGPT、SOTA アルゴリズム。
要約
著者は、AIGC 生成モデルの普及に伴い、マルチスケール PU 学習に基づくソリューションを提案することで、テキスト検出器による短文認識の問題を解決しました。将来的には、この種のコンテンツの検出がますます重要になるでしょう。この研究は、AI テキスト検出の問題において確実な一歩を踏み出したものであり、AIGC コンテンツをより適切に制御し、AI によって生成されたコンテンツの悪用を防止するために、今後さらに同様の研究が行われることが期待されています。以上が「ChatGPT詐欺」を特定、その効果はOpenAIを超える:北京大学とファーウェイのAI生成検出器が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

WebStorm Mac版
便利なJavaScript開発ツール
