人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました!

人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました!

PHPz

Apr 16, 2023 pm 05:49 PM

プロジェクト予測するAI学習

AI の食欲は大きすぎて、人間のコーパスデータではもはや十分ではありません。

エポック社チームの新しい論文は、AI が 5 年以内に高品質のコーパスをすべて使い果たしてしまうことを示しています。

これは人間の言語データの増加率、つまり、新たに書かれた論文や新たに編集された書籍の数を考慮した予測結果であることを知っておく必要があります。近年の人間は、すべてのコードをAIに与えても十分ではありません。

この開発が続けば、高品質のデータに依存してレベルを向上させる大規模な言語モデルは、すぐにボトルネックに直面することになります。

一部のネチズンはじっと座っていられません:

これはばかげています。人間はインターネット上のすべてを読まなくても効果的に自分自身を訓練することができます。

私たちが必要としているのは、より多くのデータではなく、より優れたモデルです。

一部のネチズンは、AI に自分の嘔吐物を食べさせるほうが良いと嘲笑しました:

AI を生成することができますテキスト自体は低品質のデータとして AI に供給されます。

#見てみましょう。人間はどれくらいのデータを残しているでしょうか?

テキストや画像データの「在庫」はどうでしょうか？

この論文では主にテキストと画像データを予測します。

1つ目はテキストデータです。

データの品質には通常、良いものから悪いものまで幅があります。作成者は、既存の大規模モデルやその他のデータで使用されるデータタイプに基づいて、利用可能なテキストデータを低品質部分と高品質部分に分割しました。

高品質コーパスとは、Pile、PaLM、MassiveText などの大規模な言語モデルで使用されるトレーニングデータセットを指します。これには、Wikipedia、ニュース、GitHub 上のコード、出版された書籍などが含まれます。

低品質のコーパスは、Reddit などのソーシャルメディアのツイートや非公式のファンフィクション (ファンフィク) から得られます。

統計によると、高品質の言語データストックには約 4.6×10^12 ～ 1.7×10^13 ワードしか残っていないそうです。これは、現在の最大のテキストよりも 1 桁も大きくありません。データセット。

この論文は、成長率と組み合わせると、2023 年から 2027 年の間に高品質のテキストデータが AI によって使い果たされ、推定ノードは 2026 年頃になると予測しています。

少し早いようです...

もちろん、低品質のテキストデータを追加することもできます。統計によると、テキストデータの全体的なストックには現在 7×10^13 ～ 7×10^16 ワードが残っており、これは最大のデータセットよりも 1.5 ～ 4.5 桁大きいです。

データ品質の要件が高くない場合、2030 年から 2050 年の間に AI がすべてのテキストデータを使い果たしてしまうでしょう。

画像データを改めて見てみると、ここの論文では画質の区別はありません。

現在、最大の画像データセットには 3×10^9 枚の画像が含まれています。

統計によると、現在の画像の総数は約 8.11×10^12 ～ 2.3×10^13 で、これは最大の画像データセットより 3 ～ 4 桁大きいです。

この論文は、AI がこれらの画像を 2030 年から 2070 年の間に使い果たすだろうと予測しています。

明らかに、大規模な言語モデルは、画像モデルよりも深刻な「データ不足」状況に直面しています。

では、この結論はどのように導かれるのでしょうか?

ネチズンが投稿する 1 日の平均投稿数を計算して結果を取得する

この論文では、テキスト画像データの生成効率とトレーニングデータセットの増加を 2 つの観点から分析しています。

論文の統計はすべてラベル付きデータではないことに注意してください。教師なし学習が比較的一般的であることを考慮して、ラベルなしデータも含まれています。

テキストデータを例に挙げると、ほとんどのデータはソーシャルプラットフォーム、ブログ、フォーラムから生成されます。

テキストデータの生成速度を見積もるには、総人口、インターネット普及率、インターネットユーザーが生成する平均データ量という 3 つの要素を考慮する必要があります。

たとえば、これは過去の人口データとインターネットユーザー数に基づいて推定される将来の人口とインターネットユーザーの増加傾向です:

とユーザー数を組み合わせたもの-generated データ量を平均することで、データの生成速度を計算できます。 (複雑な地理的および時間的変化のため、本稿ではユーザーが生成する平均データ量の計算方法を簡略化しています)

この方法によると、言語データの増加率は約 7% と計算されます。ただし、この成長率は増加し、時間の経過とともに徐々に減少します。

2100 年までに、言語データの増加率は 1% に低下すると予想されています。

画像データも同様の手法で分析されており、現在は8%程度の増加率ですが、2100年には画像データの増加率も1%程度に鈍化すると予想されています。

この論文では、データの増加率が大幅に増加しない場合、または新しいデータソースが出現した場合、それが画像であろうと、高品質のデータでトレーニングされた大規模なテキストモデルであろうと、ボトルネック期間が始まる可能性があると考えています。ある段階で。

一部のネチズンはこれについて冗談を言いましたが、SF ストーリーのようなことが将来起こるかもしれません:

AI を訓練するために、人間は大規模なテキスト生成プロジェクトを立ち上げ、誰もがAI 向けに何かを書くのに熱心に取り組んでいます。

彼はこれを「AI のための教育」と呼んでいます:

私たちは毎年 140,000 ～ 260 万の単語を AI に送ります。テキストデータだと、人間を電池として使うよりもクールに思えますか? ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃どう思いますか？

論文アドレス: https://arxiv.org/abs/2211.04325

人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました! 参考リンク: https://twitter.com/emollick/status/1605756428941246466

以上が人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、