検索
ホームページテクノロジー周辺機器AIChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

予想外なことに、AI の進化後に排除される最初のグループは、AI のトレーニングを支援する人々です。

多くの NLP アプリケーションでは、さまざまなタスク、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、大量のデータに手動でアノテーションを付ける必要があります。規模と複雑さに応じて、これらのタスクは、MTurk などのプラットフォームでクラウドソーシングされた作業者や、研究アシスタントなどの訓練を受けたアノテーターによって実行される場合があります。

言語ラージ モデル (LLM) は、特定の規模に達すると「出現」する可能性がある、つまり、以前は予見できなかった新しい機能を獲得できることがわかっています。 AI の新たな流行を促進する大規模なモデルとして、ChatGPT の機能は、データ セットのラベル付けや自分自身のトレーニングなど、多くのタスクにおける人々の期待を上回っています。

最近、チューリッヒ大学の研究者らは、関連性、スタンス、トピック、フレーム検出などの複数の注釈タスクにおいて、ChatGPT がクラウドソーシング作業プラットフォームや人間の作業よりも優れていることを実証しました。

さらに、研究者らは計算を行った。ChatGPT のコストは注釈あたり 0.003 ドル未満であり、MTurk よりも約 20 倍安い。これらの結果は、大規模な言語モデルがテキスト分類の効率を大幅に向上させる可能性を示しています。

ChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

#紙のリンク: https://arxiv.org/abs/2303.15056

研究の詳細

多くの NLP アプリケーションでは、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、高品質の注釈付きデータが必要です。たとえば、研究者は、ノイズの多いソーシャル メディア データを関連性のためにフィルタリングしたり、テキストを別のトピックや概念的なカテゴリに割り当てたり、感情的なスタンスを測定したりする必要がある場合があります。これらのタスクに使用される特定の方法 (教師あり、半教師あり、または教師なし学習) に関係なく、トレーニング セットを構築したり、パフォーマンスを評価するためのゴールド スタンダードとして使用したりするには、正確にラベル付けされたデータが必要です。

これに対処する一般的な方法は、研究助手を募集するか、MTurk のようなクラウドソーシング プラットフォームを使用することです。 OpenAI が ChatGPT を構築したとき、ネガティブ コンテンツの問題をケニアのデータ アノテーション機関に下請け委託し、正式にリリースされる前に多くのアノテーション トレーニングを実施しました。

スイスのチューリッヒ大学によって提出されたこのレポートは、2022 年 11 月にリリースされた ChatGPT に焦点を当て、テキスト アノテーション タスクにおける大規模言語モデル (LLM) の可能性を探ります。これは、ゼロショット (つまり、追加のトレーニングなし) ChatGPT が、手作業のコストのわずか数十分の 1 で、分類タスクにおいて MTurk アノテーションを上回っていることを証明しています。

研究者らは、以前の研究で収集した 2,382 件のツイートのサンプルを使用しました。ツイートには、関連性、スタンス、トピック、2 フレーム検出という 5 つの異なるタスクについて、訓練を受けたアノテーター (調査アシスタント) によってラベルが付けられました。実験では、研究者はタスクをゼロショット分類として ChatGPT に送信し、同時に MTurk 上のクラウドソーシング ワーカーにも送信し、次に 2 つのベンチマークに基づいて ChatGPT のパフォーマンスを評価しました。クラウドソーシング プラットフォーム上の人間のワーカーの精度との比較、研究アシスタントのアノテーターと比較した精度。

5 つのタスクのうち 4 つにおいて、ChatGPT は MTurk よりもゼロサンプル精度が高いことがわかりました。 ChatGPT のエンコーダ合意は、MTurk およびすべてのタスクについて訓練されたアノテーターの合意を上回っています。さらに、コストの点では、ChatGPT は MTurk よりもはるかに安価です。5 つの分類タスクのコストは、ChatGPT (注釈 25,264) では約 68 ドル、MTurk (注釈 12,632) では約 657 ドルです。

つまり、ChatGPT のアノテーションあたりのコストは約 0.003 ドル、つまり 3 分の 1 セントになります。MTurk よりも約 20 倍安く、高品質です。これを考慮すると、より多くのサンプルに注釈を付けたり、教師あり学習用の大規模なトレーニング セットを作成したりできるようになりました。既存のテストに基づくと、100,000 個の注釈のコストは約 300 ドルです。

研究者らは、ChatGPT やその他の LLM がより広範な文脈でどのように機能するかをよりよく理解するにはさらなる研究が必要であるが、これらの結果は研究者の行動方法を変える可能性があることを示唆していると述べています。データには注釈が付けられ、MTurk のようなプラットフォームのビジネス モデルの一部を破壊します。

実験プロセス

研究者らは、コンテンツ管理に関連するタスクに関する以前の研究から手動で注釈が付けられた 2,382 件のツイートのデータセットを使用しました。具体的には、訓練を受けたアノテーター (研究アシスタント) が、さまざまな数のカテゴリを持つ 5 つの概念的なカテゴリのゴールド スタンダードを構築しました: ツイートとコンテンツモデレーションの質問との関連性 (関連/無関連)、第 230 条 (1996 年の米国通信品位法の一部としての位置づけ) に関するもの、米国のインターネット法の重要な部分、トピックの特定 (6 つのカテゴリ)、グループ 1 のフレームワーク (問題、解決策、または中立的なコンテンツのモデレーション)、およびセクション 1 の 2 セットのフレームワーク (14 のカテゴリ)。

研究者らは次に、ChatGPT と MTurk で募集したクラウドソーシングの労働者を使用して、これらとまったく同じ分類を実行しました。 ChatGPT に対して 4 セットのアノテーションが作成されました。出力のランダム性の程度を制御する ChatGPT 温度パラメーターの影響を調査するために、ここではランダム性が低いことを意味するデフォルト値 1 と 0.2 で注釈が付けられています。研究者らは、温度値ごとに 2 セットのアノテーションを実行して、ChatGPT のエンコーダ一致を計算しました。

専門家向けに説明すると、この研究では 2 人の政治学の大学院生が 5 つのタスクすべてについてツイートに注釈を付けていることが判明しました。各タスクについて、プログラマーには同じ一連の指示が与えられ、タスクごとに独立してツイートに注釈を付けるように求められました。 ChatGPT と MTurk の精度を計算するために、比較では両方のトレーニングを受けたアノテーターが同意したツイートのみを考慮しました。

MTurk の場合、調査の目標は、特に Amazon によって「MTurk マスター」として分類され、90% 以上の肯定的な評価を得ている従業員をスクリーニングすることによって、最良の従業員グループを選択することです。レビュー、そして米国での仕事。

この調査では、ChatGPT API の「gpt-3.5-turbo」バージョンを使用してツイートを分類します。注釈は 2023 年 3 月 9 日から 3 月 20 日までの間に行われました。研究者らは、各注釈タスクについて、ChatGPT と MTurk クラウドワーカー間の比較可能性を確保するために、「段階的に考えてみましょう」などの ChatGPT 固有のプロンプトの追加を意図的に避けました。

いくつかのバリエーションをテストした後、人々は次のようなプロンプトを付けてツイートを 1 つずつ ChatGPT にフィードすることにしました。「これは私が選択したツイートです。[タスク固有の指示のためにマークしてください] (例: 説明書のトピックの 1 つ)] さらに、この研究ではツイートごとに 4 つの ChatGPT 応答が収集され、ChatGPT の結果が注釈履歴の影響を受けないことを保証するために、ツイートごとに新しいチャット セッションも作成されました。

ChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です

図 1. MTurk ショットのテキスト アノテーション機能で高得点のアノテーターと比較した ChatGPT ゼロ。ChatGPT は、MTurk よりも精度が優れています。

上の図では、ChatGPT が有利です。4 つのタスクのうち、1 つのケース (関連性) では、ChatGPT がわずかに有利です。他の 3 つのケース (frams I、frams II、Stance) では、ChatGPT は MTurk を 2.2 ~ 3.4 倍上回っています。さらに、タスクの難易度、クラスの数、およびアノテーションがゼロサンプルであるという事実から、ChatGPT の精度は一般に十分以上です。

相関関係については 2 つのカテゴリ (関連/無関係) があり、ChatGPT の精度は次のとおりです。 72.8%、スタンスの場合は3つのカテゴリー(ポジティブ・ネガティブ・ニュートラル)で78.7%の精度となり、カテゴリーの数が増えると精度は低下するが、タスク固有の難易度も影響する。図 1 は、ChatGPT のパフォーマンスが非常に高く、温度パラメーターが 0.2 に設定されている場合にすべてのタスクで 95% を超えることを示しています。これらの値は、アノテーターで訓練されたものを含むどの人間よりも高いです。デフォルトを使用した場合でも、温度値が 1 (ランダム性が高いことを意味します) の場合、コーダー間の一致度は常に 84% を超えます。コーダー間の一致度と精度の関係は正ですが、弱いです (ピアソン相関係数: 0.17)。相関関係はのみに基づいています。 5 つのデータ ポイントでは、精度を大幅に低下させることなく結果の一貫性が向上するため、より低い温度値の方がアノテーション タスクに適している可能性があることが示唆されています。

# ChatGPT のテストは非常に難しいことが強調されます。コンテンツのモデレーションは、多大なリソースを必要とする複雑なトピックです。研究者は、立場に加えて、特定の研究目的のカテゴリの概念を開発しました。さらに、一部のタスクには多数のカテゴリが関係しますが、ChatGPT はまだ高い精度を実現します。

モデルを使用してデータに注釈を付けることは、新しいことではありません。大規模なデータセットを使用するコンピューター サイエンスの研究では、少数のサンプルにラベルを付け、機械学習でそれらを増幅することがよくあります。しかし、人間を上回ったことで、将来的にはChatGPTの判断をより信頼できるようになるかもしれません。

以上がChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)