米国メディアが大規模なモデルトレーニングデータセットを公開：一部のコンテンツは少し「汚い」-AI-php.cn

ホームページ

テクノロジー周辺機器

米国メディアが大規模なモデルトレーニングデータセットを公開：一部のコンテンツは少し「汚い」

PHPz

May 01, 2023 pm 04:07 PM

AIチャットボット

米国メディアが大規模なモデルトレーニングデータセットを公開：一部のコンテンツは少し「汚い」

4 月 20 日のニュース、人工知能チャットボットは過去 4 か月でますます人気が高まっており、複雑な学術論文の執筆や研究の実施など、さまざまなタスクを完了できるようになりました。 . 激しい会話と驚くべき能力。

チャットボットは人間のようには考えず、自分が何を話しているのかさえ知りません。彼らを動かす人工知能が膨大な量のテキストを吸収しており、その多くはインターネットから収集されているため、人間の音声を模倣することができます。

これらのテキストは、構築中の世界に関する AI の主な情報源であり、AI の反応に重大な影響を与える可能性があります。人工知能が司法試験で優れた成績を収めた場合、それはその学習データに何千もの LSAT (ロースクール入学試験、アメリカのロースクール入学試験) の情報が含まれているためである可能性があります。

テクノロジー企業は、人工知能にどのような情報を提供するかについて常に秘密にしています。そこでワシントン・ポスト紙は、これらの重要なデータセットの 1 つを分析し、AI のトレーニングに使用される独自の、個人的で、しばしば攻撃的な Web サイトの種類を明らかにすることに着手しました。

人工知能トレーニングデータの内部構成を調査するために、ワシントンポストはアレン人工知能研究所の研究者と協力して、Google の C4 データセットを分析しました。このデータセットは 1,500 万を超える Web サイトの大規模なスナップショットであり、そのコンテンツは、Google の T5 や Facebook の LLaMA など、多くの有名な英語 AI のトレーニングに使用されます。 OpenAIは、チャットボットChatGPTをサポートするモデルのトレーニングにどのような種類のデータセットを使用したかは明らかにしていない。

この調査では、研究者らはウェブ分析会社Similarwebのデータを使用してウェブサイトを分類しました。これらのサイトの約 3 分の 1 は分類できず、主にインターネット上に存在していないため除外されました。次に研究者らは、データセット内の各 Web サイトに出現する「トークン」の数に基づいて、残りの 1,000 万件の Web サイトをランク付けしました。トークンは、AI モデルのトレーニングに使用される小さなテキスト処理情報 (通常は単語または語句) です。

Wikipedia から WoWhead へ

米国メディアが大規模なモデルトレーニングデータセットを公開：一部のコンテンツは少し「汚い」

C4 データセット内の Web サイトは、主にニュース、エンターテイメント、ソフトウェア開発、医療、コンテンツ作成などの業界のものです。これは、これらの分野が人工知能の新たな波によって脅かされている理由を説明できる可能性があります。上位 3 つの Web サイトは、1 つ目は世界中で公開された特許テキストを含む Google Patent Search、2 つ目は Wikipedia、3 つ目は有料購読のみを受け付けているデジタルライブラリである Scribd です。さらに、他の上位 Web サイトには、違法行為を理由に米国司法省によって閉鎖された海賊版電子書籍マーケットプレイス Library (190 位) があります。さらに、データセットには、海賊版および偽造品の市場として米国政府によって特定された Web サイトが少なくとも 27 件あります。

また、World of Warcraft プレイヤー向けのフォーラムである wowhead (181 位)、燃え尽き症候群との戦いを支援するために Arianna Huffington によって設立された Web サイトなど、いくつかのトップサイトも紹介されています。）。さらに、ダンプステロイド (No. 183) を含む、ダンプスターを販売する Web サイトが少なくとも 10 件ありますが、現在はアクセスできないようです。

ほとんどの Web サイトは安全ですが、一部には重大なプライバシーの問題があります。たとえば、上位 100 位にランクされた 2 つの Web サイトには、非公開でホストされている州の有権者登録データベースのコピーがリストされています。有権者のデータは公開されていますが、これらのモデルはこの個人情報を未知の方法で使用する可能性があります。

産業用および商業用 Web サイトが最大のカテゴリを占めています (分類されたトークンの 16% を占めます)。リストのトップは、投資アドバイスを提供する The Motley Fool (13 位) です。次に Kickstarter (25 位) は、ユーザーがクリエイティブなプロジェクトにクラウドファンディングを行える Web サイトです。 2,398 位で下位にランクされている Patreon は、クリエイターが独占コンテンツの購読者から月額料金を徴収するのに役立ちます。

ただし、Kickstarter と Patreon では、人工知能がアーティストのアイデアやマーケティングコピーにアクセスできるようになる可能性があり、ユーザーに提案を提供するときに AI がこれらの作品をコピーするのではないかという懸念が生じます。アーティストらは、自分の作品がAIトレーニングデータに含まれている場合、現在何の補償も受け取っていないが、テキストから画像へのジェネレーターであるStable Diffusion、MidJourney、DeviantArtに対して著作権侵害の申し立てを行った。

このワシントンポストの分析によると、さらなる法的問題が起こる可能性があります。C4 データセットには、著作権シンボル (知的財産として登録されている作品を示す) が 2 億件以上存在します。

テクニカル Web サイトは 2 番目に大きいカテゴリで、分類されたトークンの 15% を占めます。これには、人々が Web サイトを構築するのに役立つ多くのプラットフォームが含まれています。たとえば、Google サイト (85 位) には、イギリスのレディングにある柔道クラブからニュージャージー州の幼稚園に至るまで、あらゆるものをカバーするページがあります。

C4 データセットには、機密コンテンツの 3.8% を占める 500,000 を超える個人ブログも含まれています。出版プラットフォーム Medium は 46 位にランクされ、そのドメイン名の下に数万のブログが存在する 5 番目に大きなテクノロジー Web サイトです。さらに、WordPress、Tumblr、Blogpot、Live Journal などのプラットフォームで書かれたブログもあります。

これらのブログは、専門的なものから個人的なものまで多岐にわたります。たとえば、匿名の学者 2 人が共同執筆した「Grumpy Rumbles」というブログなど、そのうちの 1 人はパートナーがどのように職を失ったかについて最近書いています。夫婦の税金。さらに、C4 データセットには実写のロールプレイングゲームに焦点を当てたトップブログがいくつかあります。

Facebook や Twitter (現代の Web の中核と考えられている) などのソーシャルネットワークのコンテンツはクロールからブロックされています。これは、人工知能のトレーニングに使用されるほとんどのデータセットがそれらにアクセスできないことを意味します。 Facebook や Google などのテクノロジー大手は、膨大な量の会話データを保管していますが、個人ユーザー情報を使用して、社内で使用したり製品として販売したりする人工知能モデルをトレーニングする方法をまだ知りません。

ニュースとメディアサイトがすべてのカテゴリで 3 位にランクされ、上位 10 サイトの半分は報道機関でした。ニューヨークタイムズが 4 位、ロサンゼルスタイムズが 6 位、ガーディアン新聞の Web サイトが 7 位、フォーブスでした。 Web サイトは 8 位、ハフィントンポスト Web サイトは 9 位、ワシントンポスト Web サイトは 11 位にランクされました。アーティストやクリエイターと同様に、いくつかの報道機関はテクノロジー企業が自社のコンテンツを許可や補償なしで使用していることを批判している。

同時に、「ワシントン・ポスト」紙は、ロシアのRT（65位）、極右ニュースウェブサイトのブライトバート（159位）、ニュースガードの独立した信頼性評価でいくつかのメディアが下位にランクされていることも明らかにした。白人至上主義に関連する反移民ウェブサイト vdare (No. 993)。

チャットボットは誤った情報を共有することが証明されています。信頼できないトレーニングデータは、ユーザーが元の情報源を追跡できないまま、偏見を広めたり、誤った情報を助長したりする可能性があります。

コミュニティ Web サイトは機密コンテンツの約 5% を占めており、主に宗教 Web サイトが占めています。

フィルターに欠けている魚は何ですか?

ほとんどの企業と同様、Google は AI にデータを供給する前にデータをフィルタリングして選別します。同社は、意味のない繰り返しのテキストを削除するだけでなく、402 の英語用語と絵文字を含むオープンソースの「悪い単語リスト」も使用しています。企業は多くの場合、高品質のデータセットを使用してモデルを微調整し、ユーザーが見たくないコンテンツをブロックします。

このようなリストは、人種的中傷や不適切なコンテンツに関してトレーニングされるモデルを制限することを目的としていますが、多くのことがフィルターを通過してしまいます。ワシントン・ポスト紙は、禁止用語リストに数百のポルノ・ウェブサイトと7万2000以上の「ナチス」の例を発見した。

一方、ワシントン・ポスト紙は、白人至上主義のウェブサイト、反トランスのウェブサイト、個人に対する嫌がらせキャンペーンを組織していることで知られるサイトなど、一部の不穏なコンテンツをフィルターが削除できなかったことを発見した。この調査では、陰謀論を宣伝するウェブサイトも明らかになりました。

あなたのウェブサイトは AI のトレーニングに使用されていますか?

Web スクレイピングはインターネット全体をコピーするように聞こえるかもしれませんが、実際にはスナップショット、つまり特定の時点の Web ページのサンプルを収集しているだけです。 C4 データセットは、もともと 2019 年 4 月に Web コンテンツクロール用に非営利団体 CommonCrawl によって作成され、人工知能モデルトレーニング用の人気のリソースです。 CommonCrawl によると、同団体は最も重要で評判の良い Web サイトを優先しようと努めたが、ライセンスされたコンテンツや著作権で保護されたコンテンツを回避しようとはしなかったという。

ワシントンポストは、人々の現代生活のさまざまな側面を管理することが期待される人工知能モデルでデータの完全な内容を提示することが重要であると考えています。ただし、このデータセット内の多くの Web サイトには非常に不快な言葉が含まれており、モデルがこれらの言葉をマスクするようにトレーニングされていても、不快なコンテンツが依然として存在する可能性があります。

専門家によれば、C4 データセットは大きいものの、大規模な言語モデルではさらに大きなデータセットが使用される可能性があります。たとえば、OpenAI は 2020 年に GPT-3 トレーニングデータをリリースしました。これには、C4 で Web スクレイピングされたデータの 40 倍の量があります。 GPT-3 のトレーニングデータには、英語版 Wikipedia のすべて、大手テクノロジー企業が頻繁に使用する未発表の著者による無料小説のコレクション、Reddit ユーザーによって高く評価されたリンクされたテキストの編集が含まれています。

専門家らによると、多くの企業は、個人を特定できる情報、著作権で保護された資料、同意なしに盗まれたその他のデータを知ることを恐れて、トレーニングデータの内容を (内部であっても) 記録すらしていません。企業がチャットボットがどのように意思決定を行うかを説明するという課題を強調しているため、これは経営幹部が透明性のある回答を提供する必要がある分野です。

以上が米国メディアが大規模なモデルトレーニングデータセットを公開：一部のコンテンツは少し「汚い」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

メモ帳++7.3.1

使いやすく無料のコードエディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。