Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？-AI-php.cn

ホームページ

テクノロジー周辺機器

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

王林

Sep 20, 2023 pm 12:25 PM

グーグルaiラベリングたくさんの愛

小さな手作り工房は結局、工場の組立ラインには敵いません。

現在の生成型 AI が元気に成長する子供のようなものだとすると、際限なく流れてくるデータが成長の糧となります。

データアノテーションはこの「食べ物」を作るプロセスです

しかし、このプロセスは非常に複雑で面倒です。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

アノテーションを実行する「アノテーター」は、画像内のさまざまなオブジェクト、色、形状などを繰り返し識別する必要があるだけでなく、場合によってはデータをクリーニングして前処理する必要さえあります。

人工知能テクノロジーの継続的な進歩に伴い、手動によるデータ注釈の限界がますます明らかになってきています。手動のデータ注釈は時間とエネルギーを消費するだけでなく、品質を確保するのが難しい場合もあります

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

これらの問題を解決するために、Google は最近、AI フィードバック強化学習 (RLAIF) と呼ばれる方法を提案しました。これは、大規模なモデルを使用して人間の好みのアノテーションを置き換えます

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

研究結果は、RLAIF が人間のアノテーションに依存せずにヒューマンフィードバック強化学習 (RLHF) と同等の改善を達成でき、両方の勝率が 50% であることを示しています。さらに、この研究では、RLAIF と RLHF の両方が教師あり微調整 (SFT) のベースライン戦略よりも優れていることも判明しました。

これらの結果は、RLAIF が手動の

アノテーションに依存する必要がなく、RLHF の実現可能な代替手段であることを示しています。

将来、このテクノロジーが実際に広く推進され、普及した場合、データの注釈付けを手動の「プルボックス」に依存している多くの企業は、絶望的な状況に直面することになるでしょうか?

01 データアノテーションの現在のステータス

国内アノテーション業界の現状を簡単にまとめると、

業務量は多いものの、効率はあまり高くなく、恵まれない状態です。

ラベル付けされた企業はAI分野ではデータファクトリーと呼ばれており、通常は東南アジアやアフリカ、あるいは中国の河南省、山西省、山東省など人材が豊富な地域に集中しています。

コストを削減するために、ラベル会社の上司は郡内のスペースを借りてコンピューター機器を配置します。注文があれば近くでアルバイトスタッフを募集して対応し、注文がなければ解散して休憩するそうです。

簡単に言えば、この種の仕事は道端での一時的な装飾作業員に少し似ています。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？ワークステーションでは、システムは「アノテーター」に一連のデータをランダムに提供します。これには通常、いくつかの質問といくつかの回答が含まれます。

その後、「アノテーター」はまず質問がどのタイプに属するかをマークし、次に回答をそれぞれ採点して並べ替える必要があります。

以前、国産の大型モデルとGPT-4などの先進的な大型モデルとの格差が話題になった際、国産データの質が低い理由をまとめていました。

データ品質が高くないのはなぜですか?理由の一部はデータアノテーションの「パイプライン」にあります

現在、中国の大規模モデルには 2 種類のデータソースがあり、1 つはオープンソースデータセット、もう 1 つはクローラーによってクロールされた中国のインターネットデータです。

中国の大型モデルのパフォーマンスが十分でない主な理由の 1 つは、インターネットデータの品質です。

たとえば、専門家は通常、情報を検索するときに Baidu を使用しません。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？したがって、医療や金融など、より専門的で垂直的なデータの問題に直面する場合は、専門チームと協力する必要があります。

しかし、この時点で問題が再び発生します。プロチームの場合、データの観点から復帰期間が長いだけでなく、先行者が損失を被る可能性が高くなります。

たとえば、あるアノテーションチームは多量のデータを作成するために多額の費用と時間を費やしましたが、他のチームはそれをパッケージ化して少額の金額で購入するだけかもしれません。

この「フリーライダーのジレンマ」に直面し、多くの国産大型モデルはデータは多いのに品質が高くないという奇妙な状況に陥っている

この場合、OpenAI などの大手 AI 企業は、この問題をどのように解決しているのでしょうか?

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？ OpenAI は、データアノテーションのコストを削減するために、安価で集約的な労働力の使用を諦めていません。

たとえば、有毒情報にラベルを付けるために、1 時間あたり 2 米ドルの料金で多数のケニア人労働者を雇っていたことが以前に明らかになりました。

ただし、重要な違いは、データ品質と注釈効率の問題をどのように解決するかです。

具体的には、この点における OpenAI と国内企業の最大の違いは、手動アノテーションの「主観性」と「不安定性」の影響をいかに軽減するかという点にあります。

02 OpenAIの手法内容を書き換える場合、言語を中国語に書き換える必要があり、元の文章を表示する必要はありません

このようなヒューマン・アノテーターの「主観性」と「不安定性」を軽減するために、OpenAI は大きく 2 つの戦略を採用しています。

1. 人工フィードバックと強化学習の組み合わせ;

書き直す場合は、元の内容を中国語に変換する必要があります。書き換え後は次のようになります。まず、ラベル付けについて説明します。 OpenAI の人工フィードバックと国産のものの最大の違いは、出力の変更やラベル付けではなく、主にインテリジェントシステムの動作を並べ替えたりスコアリングしたりすることです。

インテリジェントシステムの動作とは、複雑な環境において、インテリジェントシステムが独自の目標と戦略に従って実行する一連のアクションまたは決定を指します。

ゲームをする、ロボットを制御する、人々と話すなど。

インテリジェントシステムの出力とは、記事を書く、絵を描くなどの単純なタスクにおいて、入力データに基づいて結果や回答を生成することを指します。 Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

一般に、インテリジェントシステムの動作は「正しい」か「間違っている」かという観点から判断するのが難しいことが多く、むしろ好みや満足度という観点から評価する必要があります。

「好み」や「満足度」に基づくこの種の評価システムでは、特定のコンテンツの修正やマーキングが必要ないため、人間の主観や知識レベル、その他の要素がデータアノテーションの品質と精度に及ぼす影響が軽減されます

確かに、国内企業もラベル付けの際に「ソート」や「スコアリング」と同様のシステムを利用することになるでしょうが、インテリジェント企業の戦略を最適化するための報酬関数としてOpenAIのような「報酬モデル」が存在しないため、システムでは、そのような「並べ替え」や「スコアリング」は依然として本質的には出力を変更したり注釈を付けたりする方法です。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

2. 多様かつ大規模なデータソースチャネル;

国内のデータアノテーションソースは、主にサードパーティのアノテーション会社またはテクノロジー企業の自社チームから提供されていますが、これらのチームはほとんどが学部生で構成されており、十分な専門性と経験が不足しているため、高品質で効率的なフィードバックを提供することが困難です。

対照的に、OpenAI の人的フィードバックは複数のチャネルとチームを通じて取得されます

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？ OpenAI は、Scale AI、Appen、Lionbridge AI などの多くのデータ企業や機関と協力しており、オープンソースデータセットやインターネットクローラーを使用してデータを取得するだけでなく、より多様で高度なデータの取得にも取り組んでいます。 -品質データ

これらのデータ企業や機関のアノテーション方法は、国内のデータ企業や機関よりも「自動化」され、「インテリジェント」になっています

たとえば、Scale AI は、Snorkel と呼ばれるテクノロジーを使用しています。これは、複数の不正確なデータソースから高品質のラベルを生成できる、弱教師あり学習に基づくデータラベル付け手法です。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？同時に、Snorkel は、ルール、モデル、知識ベースなどのさまざまな信号を使用して、各データポイントに手動で直接ラベルを付けることなく、データにラベルを追加することもできます。これにより、手動による注釈のコストと時間を大幅に削減できます。

データアノテーションのコストが削減され、サイクルが短縮されることで、競争上の優位性を持つデータ企業は、自動運転、大規模な言語モデル、合成データなど、価値が高く、困難で、しきい値の高い細分化を選択できるようになります。核となる競争力と差別化された利点を継続的に改善するための

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？このようにして、「先行者が苦しむ」というただ乗りのジレンマも、技術的および業界の強力な障壁によって解消されました。

標準化と小規模ワークショップの比較

AI 自動ラベル付けテクノロジーが実際に排除するのは、依然として純粋に手動ラベル付けを使用しているラベル付け会社だけであることがわかります。

データアノテーションは「労働集約的」な業界のように聞こえますが、詳細を掘り下げてみると、高品質のデータを追求するのは簡単な作業ではないことがわかります。

海外データアノテーションのユニコーンであるScale AIを代表とするScale AIは、アフリカなどからの安価な人材を活用するだけでなく、さまざまな業界の専門的なデータを扱うために数十人の博士号を採用している。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

Scale AI が OpenAI などの大規模モデル企業に提供する最大の価値は、データアノテーションの品質です

データ品質を最大限に確保するために、上記の AI 支援アノテーションの使用に加えて、Scale AI のもう 1 つの主要なイノベーションは、統合データプラットフォームです。

これらのプラットフォームには、Scale Audit、Scale Analytics、ScaleData Quality などが含まれます。これらのプラットフォームを通じて、顧客は注釈プロセスのさまざまな指標を監視および分析し、注釈データを検証および最適化し、注釈の精度、一貫性、完全性を評価できます。

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

このような標準化され統一されたツールとプロセスは、ラベル会社における 「組立ライン工場」 と 「手作り工房」 を区別する重要な要素となっていると言えます。

この点に関して、国内のアノテーション会社のほとんどは依然としてデータアノテーションの品質をレビューするために「手動レビュー」を使用しており、EasyData Intelligence データサービスプラットフォームなどのより高度な管理および評価ツールを導入しているのは、Baidu などの少数の大手企業だけです。

アノテーションの結果と指標を監視および分析するための専用ツールがない場合、主要なデータの監査に関して、データ品質管理は手動の経験に頼るしかなく、この方法は依然としてワークショップスタイルのレベルにしか到達できません

Googleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？

したがって、Baidu、となりのトトロデータなど、ますます多くの中国企業が機械学習と人工知能技術を使用して、データアノテーションの効率と品質を向上させ、人間と機械のモデルを実現し始めています。コラボレーション＃＃＃

この観点から見ると、人工知能ラベリングの出現は、国内のラベリング会社の終焉を意味するのではなく、技術的内容が欠如し、非効率で安価で労働集約的な従来のラベリング方法の終焉を意味します。

以上がGoogleの「大きな動き」によって何社のAIラベル会社が潰されるだろうか？の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は搜狐で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

ホットツール

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、