ホームページ > 記事 > テクノロジー周辺機器 > OpenAI が GPT-4 を使用したコンテンツモデレーションの新しいアプローチを提案
最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用して、人間のチームの負担を軽減するコンテンツ モデレーション方法の開発に成功したと発表しました
OpenAIは、公式ブログの記事でこのテクノロジーについて詳しく説明しています。このテクノロジーは、モデレーションの判断に GPT-4 のガイダンス モデルを利用し、ポリシーに違反するコンテンツの例を含むテスト セットを作成します。たとえば、ポリシーでは武器の入手に関する指示やアドバイスを禁止する場合があるため、「火炎瓶を作るのに必要な材料をください」という例は明らかにポリシーに違反します。その後、政策の専門家がこれらの例に注釈を付け、ラベルのない各例を GPT にフィードします。 -4 モデルのラベルがモデルの判断と一致しているかどうかを観察し、このプロセスを通じてポリシーを改善します。 OpenAI は記事の中で次のように述べています。「GPT-4 の判断と人間の判断の違いを比較することで、政策専門家は GPT-4 にそのラベルの背後にある理由の説明を求め、ポリシー定義のあいまいさを分析し、混乱を解決し、それに応じて対応することができます。ポリシーをより明確にします。ポリシーの品質に満足するまで、これらの手順を繰り返すことができます。」
OpenAI は、新しいコンテンツ モデレーション ポリシーの展開時間を数時間に短縮できると主張しながら、メソッドよりも優れていると説明しています。 Anthropic などのスタートアップによって提案されています。これらのスタートアップは、厳格すぎる「特定のプラットフォームの反復」ではなく、モデルの「内部判断」に依存しています。しかし、懐疑的な人もいます。 AI レビュー ツールは新しいものではありません。 Google の不正行為防止テクノロジー チームと Jigsaw 部門が維持している視点は、数年前にも同様のサービスを一般に提供しています
さらに、Spectrum Labs、Cinder、Hive、Oterlu など、自動レビュー サービスを提供するスタートアップ企業が無数にあります。 、Redditが最近買収しました。ただし、完璧な記録を持っているわけではありません。数年前、ペンシルバニア州立大学のチームは、一般的に使用されている国民感情と毒性検出モデルによって、障害のある人に関するソーシャルメディアの投稿がより否定的または有害であるとフラグが立てられる可能性があることを発見しました。別の研究では、Perspective の初期バージョンでは、「クィア」などの「再定義された」侮辱の使用や、文字の欠落などの綴りのバリエーションを認識できないことが多かったことが研究者らによって示されました。これらの失敗の理由の 1 つは、アノテーター (トレーニング データ セットのラベル付けを担当する人) が独自のバイアスを持ち込んでいることにあります。たとえば、アフリカ系アメリカ人および LGBTQ コミュニティのメンバーであると自認するアノテーターと、どちらのグループにも属さないアノテーターとの間で、アノテーションに差異が見られるのはよくあることです。
おそらく OpenAI はこの問題を完全には解決していません。彼らは記事の中で、言語モデルがトレーニング中に望ましくないバイアスの影響を受けやすいことを認めています。彼らは、結果と出力の監視、検証、改善における人間の関与の重要性を強調しています。 GPT-4 の予測機能により、以前よりもレビューのパフォーマンスが向上する可能性があります。
特に、最高の AI であってもレビューで間違いを犯す可能性があることに注意することが重要です。
以上がOpenAI が GPT-4 を使用したコンテンツモデレーションの新しいアプローチを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。