ホームページ >テクノロジー周辺機器 >AI >1 回あたりの費用はわずか 0.003 ドルで、人間の 20 分の 1 の安さです。 ChatGPT はデータ アノテーターを危険にさらす

1 回あたりの費用はわずか 0.003 ドルで、人間の 20 分の 1 の安さです。 ChatGPT はデータ アノテーターを危険にさらす

WBOY
WBOY転載
2023-04-04 12:00:021145ブラウズ

最近、チューリッヒ大学の研究チームは、ChatGPT が複数の NLP アノテーション タスクにおいてクラウドソーシング ワーカーよりも優れたパフォーマンスを高い一貫性で示し、各アノテーションのコストはわずか約 0.003 米ドルで、MTurk の 20 分の 1 であることを発見しました。

現在、多くの自然言語処理 (NLP) アプリケーションでは、特にこれらのデータが分類器のトレーニングや教師なしモデルのパフォーマンスの評価などのタスクに使用される場合、高品質の注釈付きデータのサポートが必要です。

たとえば、人工知能の研究者は、ノイズの多いソーシャル メディア データを関連性のためにフィルタリングしたり、テキストを別のトピックや概念的なカテゴリに割り当てたり、その感情やスタンスを測定したりすることをよく考えます。

さらに、これらのタスクにどのような特定の方法 (教師あり、半教師あり、または教師なし) が使用されるかに関係なく、トレーニング セットまたはゴールド スタンダードを確立するにはラベル付きデータが必要です。

ただし、ほとんどの場合、高品質のデータ アノテーション作業を完了するには、データ アノテーション プラットフォーム上のクラウドソーシング ワーカー、または研究アシスタントなどの十分な訓練を受けたアノテーターが不可欠です。

通常、訓練を受けたアノテーターは、まず比較的小規模なゴールド スタンダード データ セットを作成し、次にクラウド ワーカーを雇ってアノテーション付きデータの量を増やし、反復作業を実行します。データ注釈のタスクは、規模や複雑さによっては非常に時間と労力がかかる場合があり、一定の人件費がかかるだけでなく、データ注釈の品質も保証できません。

では、機械は人間がこの基本的なタスクを完了するのを助けることができるでしょうか?

以前は機械はこのような「ゆっくり丁寧に作業する」作業が苦手でしたが、思いがけず「データアノテーション」の件はChatGPTで完結し、ほとんどの人がやるよりはマシになりました。より良い。

1 回あたりの費用はわずか 0.003 ドルで、人間の 20 分の 1 の安さです。 ChatGPT はデータ アノテーターを危険にさらす

本日発表された新しい研究では、チューリッヒ大学の研究チームが 2,382 件のツイートのサンプルを使用して、ChatGPT が関連性、トピックの点で優れており、クラウドソーシングよりも優れていることを実証しました。フレーム検出などの複数の注釈タスクを実行するワーカー。

関連する研究論文のタイトルは「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」で、プレプリント Web サイト arXiv で公開されています。

具体的には、ChatGPT のゼロショット精度は、5 つのタスクのうち 4 つでクラウドソーシング ワーカーを上回りました。すべてのタスクでコーダ間の一貫性が実証されました (合意の観点から)、ChatGPT はクラウドソーシング ワーカーを上回るだけでなく、訓練を受けたアノテーターも上回りました。

1 回あたりの費用はわずか 0.003 ドルで、人間の 20 分の 1 の安さです。 ChatGPT はデータ アノテーターを危険にさらす

ChatGPT のゼロサンプル テキスト データ アノテーションのパフォーマンス

ChatGPT の各アノテーションのコストが低いことは注目に値します。これは、データ アノテーション プラットフォームよりも約 20 倍安いです。

研究チームは、ChatGPT やその他の LLM がより広範な状況でどのように機能するかをよりよく理解するにはさらなる研究が必要である一方、研究者がデータに注釈を付ける方法を変える可能性があることを示唆していると考えています。テキスト分類の効率化とデータ注釈プラットフォームの一部のビジネスモデルの破壊。

少なくとも現時点では、これらの発見は、テキスト注釈のプロパティと LLM の機能をさらに深く掘り下げることの重要性を示しています。

将来的に、研究チームは、複数の言語での ChatGPT のパフォーマンス、複数の種類のテキスト (ソーシャル メディア、ニュース メディア、法律、スピーチなど) での ChatGPT のパフォーマンスを研究し、ChatGPT を使用する予定です。思考 (CoT) ゼロショット推論のパフォーマンスを向上させるためのヒントやその他の戦略に関する研究が続けられています。

研究チームがこの作業を行っていたとき、OpenAI はまだ GPT-4 をリリースしていなかった点に言及する価値があります。GPT-4 を使用してデータ アノテーション タスクを完了した場合、結果はどうなるでしょうか?

参考: https://arxiv.org/abs/2303.15056

以上が1 回あたりの費用はわずか 0.003 ドルで、人間の 20 分の 1 の安さです。 ChatGPT はデータ アノテーターを危険にさらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。