ホームページ >テクノロジー周辺機器 >AI >米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

PHPz
PHPz転載
2023-05-01 16:07:061269ブラウズ

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

4 月 20 日のニュース、人工知能チャットボットは過去 4 か月でますます人気が高まっており、複雑な学術論文の執筆や研究の実施など、さまざまなタスクを完了できるようになりました。 . 激しい会話と驚くべき能力。

チャットボットは人間のようには考えず、自分が何を話しているのかさえ知りません。彼らを動かす人工知能が膨大な量のテキストを吸収しており、その多くはインターネットから収集されているため、人間の音声を模倣することができます。

これらのテキストは、構築中の世界に関する AI の主な情報源であり、AI の反応に重大な影響を与える可能性があります。人工知能が司法試験で優れた成績を収めた場合、それはその学習データに何千もの LSAT (ロースクール入学試験、アメリカのロースクール入学試験) の情報が含まれているためである可能性があります。

テクノロジー企業は、人工知能にどのような情報を提供するかについて常に秘密にしています。そこでワシントン・ポスト紙は、これらの重要なデータセットの 1 つを分析し、AI のトレーニングに使用される独自の、個人的で、しばしば攻撃的な Web サイトの種類を明らかにすることに着手しました。

人工知能トレーニング データの内部構成を調査するために、ワシントン ポストはアレン人工知能研究所の研究者と協力して、Google の C4 データセットを分析しました。このデータセットは 1,500 万を超える Web サイトの大規模なスナップショットであり、そのコンテンツは、Google の T5 や Facebook の LLaMA など、多くの有名な英語 AI のトレーニングに使用されます。 OpenAIは、チャットボットChatGPTをサポートするモデルのトレーニングにどのような種類のデータセットを使用したかは明らかにしていない。

この調査では、研究者らはウェブ分析会社Similarwebのデータを使用してウェブサイトを分類しました。これらのサイトの約 3 分の 1 は分類できず、主にインターネット上に存在していないため除外されました。次に研究者らは、データセット内の各 Web サイトに出現する「トークン」の数に基づいて、残りの 1,000 万件の Web サイトをランク付けしました。トークンは、AI モデルのトレーニングに使用される小さなテキスト処理情報 (通常は単語または語句) です。

Wikipedia から WoWhead へ

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

C4 データセット内の Web サイトは、主にニュース、エンターテイメント、ソフトウェア開発、医療、コンテンツ作成などの業界のものです。これは、これらの分野が人工知能の新たな波によって脅かされている理由を説明できる可能性があります。上位 3 つの Web サイトは、1 つ目は世界中で公開された特許テキストを含む Google Patent Search、2 つ目は Wikipedia、3 つ目は有料購読のみを受け付けているデジタル ライブラリである Scribd です。さらに、他の上位 Web サイトには、違法行為を理由に米国司法省によって閉鎖された海賊版電子書籍マーケットプレイス Library (190 位) があります。さらに、データセットには、海賊版および偽造品の市場として米国政府によって特定された Web サイトが少なくとも 27 件あります。

また、World of Warcraft プレイヤー向けのフォーラムである wowhead (181 位)、燃え尽き症候群との戦いを支援するために Arianna Huffington によって設立された Web サイトなど、いくつかのトップ サイトも紹介されています。 )。さらに、ダンプステロイド (No. 183) を含む、ダンプスターを販売する Web サイトが少なくとも 10 件ありますが、現在はアクセスできないようです。

ほとんどの Web サイトは安全ですが、一部には重大なプライバシーの問題があります。たとえば、上位 100 位にランクされた 2 つの Web サイトには、非公開でホストされている州の有権者登録データベースのコピーがリストされています。有権者のデータは公開されていますが、これらのモデルはこの個人情報を未知の方法で使用する可能性があります。

産業用および商業用 Web サイトが最大のカテゴリを占めています (分類されたトークンの 16% を占めます)。リストのトップは、投資アドバイスを提供する The Motley Fool (13 位) です。次に Kickstarter (25 位) は、ユーザーがクリエイティブなプロジェクトにクラウドファンディングを行える Web サイトです。 2,398 位で下位にランクされている Patreon は、クリエイターが独占コンテンツの購読者から月額料金を徴収するのに役立ちます。

ただし、Kickstarter と Patreon では、人工知能がアーティストのアイデアやマーケティング コピーにアクセスできるようになる可能性があり、ユーザーに提案を提供するときに AI がこれらの作品をコピーするのではないかという懸念が生じます。アーティストらは、自分の作品がAIトレーニングデータに含まれている場合、現在何の補償も受け取っていないが、テキストから画像へのジェネレーターであるStable Diffusion、MidJourney、DeviantArtに対して著作権侵害の申し立てを行った。

このワシントン ポストの分析によると、さらなる法的問題が起こる可能性があります。C4 データ セットには、著作権シンボル (知的財産として登録されている作品を示す) が 2 億件以上存在します。

テクニカル Web サイトは 2 番目に大きいカテゴリで、分類されたトークンの 15% を占めます。これには、人々が Web サイトを構築するのに役立つ多くのプラットフォームが含まれています。たとえば、Google サイト (85 位) には、イギリスのレディングにある柔道クラブからニュージャージー州の幼稚園に至るまで、あらゆるものをカバーするページがあります。

C4 データ セットには、機密コンテンツの 3.8% を占める 500,000 を超える個人ブログも含まれています。出版プラットフォーム Medium は 46 位にランクされ、そのドメイン名の下に数万のブログが存在する 5 番目に大きなテクノロジー Web サイトです。さらに、WordPress、Tumblr、Blogpot、Live Journal などのプラットフォームで書かれたブログもあります。

これらのブログは、専門的なものから個人的なものまで多岐にわたります。たとえば、匿名の学者 2 人が共同執筆した「Grumpy Rumbles」というブログなど、そのうちの 1 人はパートナーがどのように職を失ったかについて最近書いています。夫婦の税金。さらに、C4 データセットには実写のロールプレイング ゲームに焦点を当てたトップ ブログがいくつかあります。

Facebook や Twitter (現代の Web の中核と考えられている) などのソーシャル ネットワークのコンテンツはクロールからブロックされています。これは、人工知能のトレーニングに使用されるほとんどのデータ セットがそれらにアクセスできないことを意味します。 Facebook や Google などのテクノロジー大手は、膨大な量の会話データを保管していますが、個人ユーザー情報を使用して、社内で使用したり製品として販売したりする人工知能モデルをトレーニングする方法をまだ知りません。

ニュースとメディア サイトがすべてのカテゴリで 3 位にランクされ、上位 10 サイトの半分は報道機関でした。ニューヨーク タイムズが 4 位、ロサンゼルス タイムズが 6 位、ガーディアン新聞の Web サイトが 7 位、フォーブスでした。 Web サイトは 8 位、ハフィントン ポスト Web サイトは 9 位、ワシントン ポスト Web サイトは 11 位にランクされました。アーティストやクリエイターと同様に、いくつかの報道機関はテクノロジー企業が自社のコンテンツを許可や補償なしで使用していることを批判している。

同時に、「ワシントン・ポスト」紙は、ロシアのRT(65位)、極右ニュースウェブサイトのブライトバート(159位)、ニュースガードの独立した信頼性評価でいくつかのメディアが下位にランクされていることも明らかにした。白人至上主義に関連する反移民ウェブサイト vdare (No. 993)。

チャットボットは誤った情報を共有することが証明されています。信頼できないトレーニング データは、ユーザーが元の情報源を追跡できないまま、偏見を広めたり、誤った情報を助長したりする可能性があります。

コミュニティ Web サイトは機密コンテンツの約 5% を占めており、主に宗教 Web サイトが占めています。

フィルターに欠けている魚は何ですか?

ほとんどの企業と同様、Google は AI にデータを供給する前にデータをフィルタリングして選別します。同社は、意味のない繰り返しのテキストを削除するだけでなく、402 の英語用語と絵文字を含むオープンソースの「悪い単語リスト」も使用しています。企業は多くの場合、高品質のデータセットを使用してモデルを微調整し、ユーザーが見たくないコンテンツをブロックします。

このようなリストは、人種的中傷や不適切なコンテンツに関してトレーニングされるモデルを制限することを目的としていますが、多くのことがフィルターを通過してしまいます。ワシントン・ポスト紙は、禁止用語リストに数百のポルノ・ウェブサイトと7万2000以上の「ナチス」の例を発見した。

一方、ワシントン・ポスト紙は、白人至上主義のウェブサイト、反トランスのウェブサイト、個人に対する嫌がらせキャンペーンを組織していることで知られるサイトなど、一部の不穏なコンテンツをフィルターが削除できなかったことを発見した。この調査では、陰謀論を宣伝するウェブサイトも明らかになりました。

あなたのウェブサイトは AI のトレーニングに使用されていますか?

Web スクレイピングはインターネット全体をコピーするように聞こえるかもしれませんが、実際にはスナップショット、つまり特定の時点の Web ページのサンプルを収集しているだけです。 C4 データセットは、もともと 2019 年 4 月に Web コンテンツ クロール用に非営利団体 CommonCrawl によって作成され、人工知能モデル トレーニング用の人気のリソースです。 CommonCrawl によると、同団体は最も重要で評判の良い Web サイトを優先しようと努めたが、ライセンスされたコンテンツや著作権で保護されたコンテンツを回避しようとはしなかったという。

ワシントン ポストは、人々の現代生活のさまざまな側面を管理することが期待される人工知能モデルでデータの完全な内容を提示することが重要であると考えています。ただし、このデータセット内の多くの Web サイトには非常に不快な言葉が含まれており、モデルがこれらの言葉をマスクするようにトレーニングされていても、不快なコンテンツが依然として存在する可能性があります。

専門家によれば、C4 データセットは大きいものの、大規模な言語モデルではさらに大きなデータセットが使用される可能性があります。たとえば、OpenAI は 2020 年に GPT-3 トレーニング データをリリースしました。これには、C4 で Web スクレイピングされたデータの 40 倍の量があります。 GPT-3 のトレーニング データには、英語版 Wikipedia のすべて、大手テクノロジー企業が頻繁に使用する未発表の著者による無料小説のコレクション、Reddit ユーザーによって高く評価されたリンクされたテキストの編集が含まれています。

専門家らによると、多くの企業は、個人を特定できる情報、著作権で保護された資料、同意なしに盗まれたその他のデータを知ることを恐れて、トレーニング データの内容を (内部であっても) 記録すらしていません。企業がチャットボットがどのように意思決定を行うかを説明するという課題を強調しているため、これは経営幹部が透明性のある回答を提供する必要がある分野です。

以上が米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。