検索
ホームページテクノロジー周辺機器AIChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

予想外なことに、AI の進化後に排除される最初のグループは、AI のトレーニングを支援する人々です。

多くの NLP アプリケーションでは、さまざまなタスク、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、大量のデータに手動でアノテーションを付ける必要があります。規模と複雑さに応じて、これらのタスクは、MTurk などのプラットフォームでクラウドソーシングされた作業者や、研究アシスタントなどの訓練を受けたアノテーターによって実行される場合があります。

言語ラージ モデル (LLM) は、特定の規模に達すると「出現」する可能性がある、つまり、以前は予見できなかった新しい機能を獲得できることがわかっています。 AI の新たな流行を促進する大規模なモデルとして、ChatGPT の機能は、データ セットのラベル付けや自分自身のトレーニングなど、多くのタスクにおける人々の期待を上回っています。

最近、チューリッヒ大学の研究者らは、関連性、スタンス、トピック、フレーム検出などの複数の注釈タスクにおいて、ChatGPT がクラウドソーシング作業プラットフォームや人間の作業よりも優れていることを実証しました。

さらに、研究者らは計算を行った。ChatGPT のコストは注釈あたり 0.003 ドル未満であり、MTurk よりも約 20 倍安い。これらの結果は、大規模な言語モデルがテキスト分類の効率を大幅に向上させる可能性を示しています。

ChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

#紙のリンク: https://arxiv.org/abs/2303.15056

研究の詳細

多くの NLP アプリケーションでは、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、高品質の注釈付きデータが必要です。たとえば、研究者は、ノイズの多いソーシャル メディア データを関連性のためにフィルタリングしたり、テキストを別のトピックや概念的なカテゴリに割り当てたり、感情的なスタンスを測定したりする必要がある場合があります。これらのタスクに使用される特定の方法 (教師あり、半教師あり、または教師なし学習) に関係なく、トレーニング セットを構築したり、パフォーマンスを評価するためのゴールド スタンダードとして使用したりするには、正確にラベル付けされたデータが必要です。

これに対処する一般的な方法は、研究助手を募集するか、MTurk のようなクラウドソーシング プラットフォームを使用することです。 OpenAI が ChatGPT を構築したとき、ネガティブ コンテンツの問題をケニアのデータ アノテーション機関に下請け委託し、正式にリリースされる前に多くのアノテーション トレーニングを実施しました。

スイスのチューリッヒ大学によって提出されたこのレポートは、2022 年 11 月にリリースされた ChatGPT に焦点を当て、テキスト アノテーション タスクにおける大規模言語モデル (LLM) の可能性を探ります。これは、ゼロショット (つまり、追加のトレーニングなし) ChatGPT が、手作業のコストのわずか数十分の 1 で、分類タスクにおいて MTurk アノテーションを上回っていることを証明しています。

研究者らは、以前の研究で収集した 2,382 件のツイートのサンプルを使用しました。ツイートには、関連性、スタンス、トピック、2 フレーム検出という 5 つの異なるタスクについて、訓練を受けたアノテーター (調査アシスタント) によってラベルが付けられました。実験では、研究者はタスクをゼロショット分類として ChatGPT に送信し、同時に MTurk 上のクラウドソーシング ワーカーにも送信し、次に 2 つのベンチマークに基づいて ChatGPT のパフォーマンスを評価しました。クラウドソーシング プラットフォーム上の人間のワーカーの精度との比較、研究アシスタントのアノテーターと比較した精度。

5 つのタスクのうち 4 つにおいて、ChatGPT は MTurk よりもゼロサンプル精度が高いことがわかりました。 ChatGPT のエンコーダ合意は、MTurk およびすべてのタスクについて訓練されたアノテーターの合意を上回っています。さらに、コストの点では、ChatGPT は MTurk よりもはるかに安価です。5 つの分類タスクのコストは、ChatGPT (注釈 25,264) では約 68 ドル、MTurk (注釈 12,632) では約 657 ドルです。

つまり、ChatGPT のアノテーションあたりのコストは約 0.003 ドル、つまり 3 分の 1 セントになります。MTurk よりも約 20 倍安く、高品質です。これを考慮すると、より多くのサンプルに注釈を付けたり、教師あり学習用の大規模なトレーニング セットを作成したりできるようになりました。既存のテストに基づくと、100,000 個の注釈のコストは約 300 ドルです。

研究者らは、ChatGPT やその他の LLM がより広範な文脈でどのように機能するかをよりよく理解するにはさらなる研究が必要であるが、これらの結果は研究者の行動方法を変える可能性があることを示唆していると述べています。データには注釈が付けられ、MTurk のようなプラットフォームのビジネス モデルの一部を破壊します。

実験プロセス

研究者らは、コンテンツ管理に関連するタスクに関する以前の研究から手動で注釈が付けられた 2,382 件のツイートのデータセットを使用しました。具体的には、訓練を受けたアノテーター (研究アシスタント) が、さまざまな数のカテゴリを持つ 5 つの概念的なカテゴリのゴールド スタンダードを構築しました: ツイートとコンテンツモデレーションの質問との関連性 (関連/無関連)、第 230 条 (1996 年の米国通信品位法の一部としての位置づけ) に関するもの、米国のインターネット法の重要な部分、トピックの特定 (6 つのカテゴリ)、グループ 1 のフレームワーク (問題、解決策、または中立的なコンテンツのモデレーション)、およびセクション 1 の 2 セットのフレームワーク (14 のカテゴリ)。

研究者らは次に、ChatGPT と MTurk で募集したクラウドソーシングの労働者を使用して、これらとまったく同じ分類を実行しました。 ChatGPT に対して 4 セットのアノテーションが作成されました。出力のランダム性の程度を制御する ChatGPT 温度パラメーターの影響を調査するために、ここではランダム性が低いことを意味するデフォルト値 1 と 0.2 で注釈が付けられています。研究者らは、温度値ごとに 2 セットのアノテーションを実行して、ChatGPT のエンコーダ一致を計算しました。

専門家向けに説明すると、この研究では 2 人の政治学の大学院生が 5 つのタスクすべてについてツイートに注釈を付けていることが判明しました。各タスクについて、プログラマーには同じ一連の指示が与えられ、タスクごとに独立してツイートに注釈を付けるように求められました。 ChatGPT と MTurk の精度を計算するために、比較では両方のトレーニングを受けたアノテーターが同意したツイートのみを考慮しました。

MTurk の場合、調査の目標は、特に Amazon によって「MTurk マスター」として分類され、90% 以上の肯定的な評価を得ている従業員をスクリーニングすることによって、最良の従業員グループを選択することです。レビュー、そして米国での仕事。

この調査では、ChatGPT API の「gpt-3.5-turbo」バージョンを使用してツイートを分類します。注釈は 2023 年 3 月 9 日から 3 月 20 日までの間に行われました。研究者らは、各注釈タスクについて、ChatGPT と MTurk クラウドワーカー間の比較可能性を確保するために、「段階的に考えてみましょう」などの ChatGPT 固有のプロンプトの追加を意図的に避けました。

いくつかのバリエーションをテストした後、人々は次のようなプロンプトを付けてツイートを 1 つずつ ChatGPT にフィードすることにしました。「これは私が選択したツイートです。[タスク固有の指示のためにマークしてください] (例: 説明書のトピックの 1 つ)] さらに、この研究ではツイートごとに 4 つの ChatGPT 応答が収集され、ChatGPT の結果が注釈履歴の影響を受けないことを保証するために、ツイートごとに新しいチャット セッションも作成されました。

ChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

図 1. MTurk ショットのテキスト アノテーション機能で高得点のアノテーターと比較した ChatGPT ゼロ。ChatGPT は、MTurk よりも精度が優れています。

上の図では、ChatGPT が有利です。4 つのタスクのうち、1 つのケース (関連性) では、ChatGPT がわずかに有利です。他の 3 つのケース (frams I、frams II、Stance) では、ChatGPT は MTurk を 2.2 ~ 3.4 倍上回っています。さらに、タスクの難易度、クラスの数、およびアノテーションがゼロサンプルであるという事実から、ChatGPT の精度は一般に十分以上です。

相関関係については 2 つのカテゴリ (関連/無関係) があり、ChatGPT の精度は次のとおりです。 72.8%、スタンスの場合は3つのカテゴリー(ポジティブ・ネガティブ・ニュートラル)で78.7%の精度となり、カテゴリーの数が増えると精度は低下するが、タスク固有の難易度も影響する。図 1 は、ChatGPT のパフォーマンスが非常に高く、温度パラメーターが 0.2 に設定されている場合にすべてのタスクで 95% を超えることを示しています。これらの値は、アノテーターで訓練されたものを含むどの人間よりも高いです。デフォルトを使用した場合でも、温度値が 1 (ランダム性が高いことを意味します) の場合、コーダー間の一致度は常に 84% を超えます。コーダー間の一致度と精度の関係は正ですが、弱いです (ピアソン相関係数: 0.17)。相関関係はのみに基づいています。 5 つのデータ ポイントでは、精度を大幅に低下させることなく結果の一貫性が向上するため、より低い温度値の方がアノテーション タスクに適している可能性があることが示唆されています。

# ChatGPT のテストは非常に難しいことが強調されます。コンテンツのモデレーションは、多大なリソースを必要とする複雑なトピックです。研究者は、立場に加えて、特定の研究目的のカテゴリの概念を開発しました。さらに、一部のタスクには多数のカテゴリが関係しますが、ChatGPT はまだ高い精度を実現します。

モデルを使用してデータに注釈を付けることは、新しいことではありません。大規模なデータセットを使用するコンピューター サイエンスの研究では、少数のサンプルにラベルを付け、機械学習でそれらを増幅することがよくあります。しかし、人間を上回ったことで、将来的にはChatGPTの判断をより信頼できるようになるかもしれません。

以上がChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Power BIセマンティックモデルとは何ですか?Power BIセマンティックモデルとは何ですか?Apr 15, 2025 am 10:46 AM

導入 シナリオを想像してみてください。チームは、多様なソースからの大規模なデータセットに圧倒されます。 意味のあるプレゼンテーションのためにこの情報を統合、並べ替え、分析することは課題です。これは、パワーバイセマンティックモデル(PBISM)Ex

Llama IndexとMonsterapiを使用してAIエージェントを構築する方法Llama IndexとMonsterapiを使用してAIエージェントを構築する方法Apr 15, 2025 am 10:44 AM

AIエージェント:LlamaindexとMonsterapiを搭載したAIの未来 AIエージェントは、テクノロジーとの対話方法に革命をもたらす態勢を整えています。 これらの自律システムは、人間の行動を模倣し、推論、意思決定、およびREAを必要とするタスクを実行します

人間の介入なしでLLMを訓練する7つの方法人間の介入なしでLLMを訓練する7つの方法Apr 15, 2025 am 10:38 AM

自律AIのロック解除:自己トレーニングLLMの7つの方法 子どもたちが複雑な概念を独立して習得するように、AIシステムが人間の介入なしに学び、進化する未来を想像してください。これはサイエンスフィクションではありません。それは自己の約束です

AIおよびNLGによる財務報告の変革-AnalyticsVidhyaAIおよびNLGによる財務報告の変革-AnalyticsVidhyaApr 15, 2025 am 10:35 AM

AI搭載の財務報告:自然言語生成による洞察の革命 今日のダイナミックなビジネス環境では、戦略的意思決定には正確でタイムリーな財務分析が最重要です。 従来の財務報告

このGoogle Deepmindロボットは、2028年のオリンピックでプレイしますか?このGoogle Deepmindロボットは、2028年のオリンピックでプレイしますか?Apr 15, 2025 am 10:16 AM

Google Deepmind's Table Tennis Robot:スポーツとロボット工学の新しい時代 パリ2024年のオリンピックは終わったかもしれませんが、Google Deepmindのおかげで、スポーツとロボット工学の新しい時代が夜明けです。 彼らの画期的な研究(「「人間レベルの競争を達成する」

Gemini Flash1.5モデルで食品ビジョンWebAppを構築するGemini Flash1.5モデルで食品ビジョンWebAppを構築するApr 15, 2025 am 10:15 AM

Gemini Flash 1.5による効率とスケーラビリティのロック解除:Flask Food Vision WebApp 急速に進化するAIの状況では、効率とスケーラビリティが最重要です。 開発者は、コストとレイテンシを最小限に抑える高性能モデルをますます求めています

LlamainDexを使用してAIエージェントを実装しますLlamainDexを使用してAIエージェントを実装しますApr 15, 2025 am 10:11 AM

llamaindexを使用してAIエージェントのパワーを活用:ステップバイステップガイド 迅速な計算であろうと最新の市場ニュースを取得するかどうかにかかわらず、リクエストを理解し、完璧に実行するパーソナルアシスタントを想像してください。この記事で探求します

.ipynbファイルをPDF-分析vidhyaに変換する5つの方法.ipynbファイルをPDF-分析vidhyaに変換する5つの方法Apr 15, 2025 am 10:06 AM

Jupyter Notebook(.ipynb)ファイルは、データ分析、科学的コンピューティング、およびインタラクティブエンコーディングで広く使用されています。これらのノートブックは、他のデータサイエンティストとコードを開発および共有するのに最適ですが、PDFなどのより一般的に読みやすい形式に変換する必要がある場合があります。このガイドでは、.ipynbファイルをPDFに変換するさまざまな方法、およびヒント、ベストプラクティス、およびトラブルシューティングの提案をご覧ください。 目次 .ipynbをPDFに変換する理由 .ipynbファイルをPDFに変換する方法 JupyterノートブックUIを使用します nbconveを使用します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、