ホームページ > 記事 > テクノロジー周辺機器 > OpenAI は AI 生成のコンテンツ識別子を正式に開始しましたが、成功率はわずか 26% であり、ネチズン: 紙の盗作チェック ツールほど優れたものではありません。
ChatGPT が昨年 11 月末、わずか 2 か月前に正式にリリースされたことを多くの人は忘れているかもしれませんが、それが引き起こした流行により、テクノロジー企業が追随し、ユニコーン スタートアップが誕生しました。学術界が論文受理の要件を変更するよう主導した。
ChatGPT が AI 分野で「禁止すべきかどうか」という大きな議論を引き起こした後、OpenAI の真正性識別ツールがついに登場しました。
OpenAI は 1 月 31 日、人間の著作物と AI が生成したテキストを区別する認識ツールのリリースを正式に発表しました。このテクノロジーは、独自の ChatGPT (GPT) によって生成されたコンテンツを識別するように設計されています。 3と他のモデルです。ただし、現時点では分類器の精度が懸念されているようです。OpenAIは、AI識別AIの高信頼精度率が約26%であるとブログで指摘しています。しかし同庁は、他の方法と併用すれば、AIテキストジェネレーターの悪用を防ぐことができると考えている。
「私たちが提案する分類子の目的は、AI が生成したテキストによって引き起こされる混乱を軽減することです。ただし、まだいくつかの制限があるため、他の方法の代替として使用する必要があります。主要な意思決定ツールとしてではなく、補足として」と OpenAI の広報担当者は電子メールでメディアに語った。 「このようなツールがこの初期分類器で有用であるかどうかについてフィードバックを受けており、将来的には改善方法を共有したいと考えています。」 特にテキスト生成 AI に対する熱意は高まっていますが、悪用に対する懸念がそれに対抗しています。批評家らは、これらのツールの作成者に対し、潜在的に有害な影響を軽減する措置を講じるよう求めている。
AI によって生成された大量のコンテンツに直面して、一部の業界は直ちに制限を課し、米国最大の学区のいくつかでは、ネットワークとデバイスでの ChatGPT の使用を禁止しました。 、生徒の学習に影響を与えることを恐れていること、およびツールによって生成されるコンテンツの精度に影響を与えることを懸念しています。 Stack Overflowなどのウェブサイトも、人工知能のせいで通常の議論では役に立たないコンテンツがユーザーに氾濫するとして、ChatGPTで生成されたコンテンツをユーザーが共有することを禁止している。
#こうした状況は、AI 認識ツールの必要性を浮き彫りにしています。効果は満足できるものではありませんが、OpenAI AI Text Classifier は GPT シリーズとのアーキテクチャ ベンチマークを達成しています。 ChatGPT と同様、Web 上の多くの公開テキストの例でトレーニングされた言語モデルです。 ChatGPT とは異なり、テキストの一部が AI (ChatGPT だけでなく、テキスト生成 AI モデルから) によって生成された可能性を予測するために微調整されています。
具体的には、OpenAI は、OpenAI 自体を含む 5 つの異なる組織にわたる 34 のテキスト生成システムからのテキストを対象に、AI テキスト分類器をトレーニングしました。これらは、Wikipedia の類似した (ただし同一ではない) 人工テキスト、Reddit で共有されたリンクから取得した Web サイト、および OpenAI テキスト生成システム用に収集された一連の「人間のデモ」と組み合わせられました。
OpenAI テキスト分類子は、すべてのタイプのテキストに適しているわけではないことに注意してください。検出するコンテンツは少なくとも 1000 文字、または約 150 ~ 250 ワードである必要があります。論文検出プラットフォームのような盗作チェック機能はありません。テキスト生成 AI がトレーニング セットから「正解」をコピーすることがわかっていることを考えると、これは非常に不快な制限です。 OpenAIは、そのデータセットが英語順のため、子供や英語以外の言語で書かれたテキストでエラーが発生する可能性が高いと述べた。
検出器は、特定のテキストが AI によって生成されたかどうかを評価するときに、肯定的な「はい」または「いいえ」の答えを返しません。信頼レベルに応じて、テキストが AI によって生成される可能性は「非常に低い」(確率 10% 未満)、AI によって生成される可能性が「低い」(確率 10% から 45% の間)、「かどうか不明」とマークされます。それは、「AI によって生成された (確率 45% ~ 90%)」、「AI によって生成された可能性がある」(確率 90% ~ 98%)、または AI によって生成された「可能性が非常に高い」(確率 98% 以上) でした。
精度を除けば、画像認識 AI と非常によく似ています。 OpenAI によると、分類器は 9% の確率で人間が書いたテキストを AI が書いたテキストとして誤ってラベル付けします。
OpenAI は、AI テキスト分類器の成功率は約 26% であると主張しています。何人かのネチズンがそれを試したところ、認識効果が優れていることがわかりました。確かによくなかった。
著名な ML および AI 研究者の Sebastian Raschka 氏が試したところ、「うまくいかない」という評価を下しました。彼は、オリジナルの 2015 年版の Python ML 本を入力テキストとして使用しました。その結果を以下に示します。
#Sebastian Raschka 氏は、これは興味深い例だが、法外な紙の識別結果によって将来罰せられる可能性のある学生たちをすでに気の毒に思っていると述べました。
そこで彼は、そのようなモデルを導入したい場合は、混同マトリックスを共有してくださいと提案しました。そうしないと、教育者が採点にこのモデルを採用した場合、実世界に害を及ぼす可能性があります。また、偽陽性と偽陰性についてもある程度の透明性を確保する必要があります。
さらに、Sebastian Raschka がシェイクスピアの「マクベス」の最初のページの内容を入力したところ、OpenAI AI テキスト分類器は AI によって生成された可能性が非常に高い結果を返しました。まさにとんでもない!
AI ライティング ツール Easy-Peasy.AI によって作成されたコンテンツを他の人がアップロードし、結果は次の方法によって決定されました。 OpenAI AI テキスト分類子 AI によって生成される可能性は非常に低いです。
#最後に、誰かが翻訳を繰り返す方法を使用して GPT3 にテキストを書き換えさせましたが、これも認識エンジンを騙しました。
要約すると、前方認識は不正確であり、逆方向認識も誤りであり、論文を修正するためのいくつかのテクニックです。透けません。少なくともAIテキストコンテンツ認識の分野では、OpenAIはまだまだ努力が必要なようだ。
以上がOpenAI は AI 生成のコンテンツ識別子を正式に開始しましたが、成功率はわずか 26% であり、ネチズン: 紙の盗作チェック ツールほど優れたものではありません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。