ホームページ  >  記事  >  テクノロジー周辺機器  >  チャットボットはインターネットを消化しつつあり、インターネットはその恩恵を受けようとしています

チャットボットはインターネットを消化しつつあり、インターネットはその恩恵を受けようとしています

王林
王林転載
2023-05-16 16:31:06713ブラウズ

チャットボットはインターネットを消化しつつあり、インターネットはその恩恵を受けようとしています

人工知能企業は、インターネット上の無数の人々によって作成されたコンテンツを、同意や補償なしに悪用しています。現在、チャットボットの流行に少しでも参加しようと、支払いを要求するテクノロジー企業やメディア企業が増えている。

翻訳は次のとおりです:

これまでにブログを書いたり、Reddit に投稿したり、オープン ウェブ上で何かを共有したりしたことがあれば、最新世代の誕生に貢献したことがある可能性があります。人工知能の。

Google の Bard、OpenAI の ChatGPT、Microsoft の新バージョンの Bing、および他の新興企業が提供する同様のツールはすべて、人工知能言語モデルを統合しています。しかし、これらの賢いロボット作家は、インターネット上で自由に入手できる膨大な量のテキストがなければ不可能です。

現在、Web コンテンツが再び競争の焦点になっています。検索エンジン戦争の初期以来、このようなことは起こっていません。新たな価値に富んだこのかけがえのない情報源を、テクノロジー大手は自らの領域として切り開こうとしている。

当初は何の疑いも持たなかったテクノロジー企業やメディア企業も、このデータが新世代の言語ベースの人工知能を育成するために重要であることに気づき始めています。 Reddit は OpenAI の貴重なトレーニング リソースの 1 つですが、最近、データ アクセスに対して人工知能企業に料金を請求すると発表しました。 OpenAIはコメントを控えた。

最近、Twitter はデータ アクセス サービスの有料化も開始しました。これは、人工知能企業によるデータの使用など、Twitter のビジネスの多くの側面に影響を与える変更です。出版社を代表するニュース・メディア・アライアンスは今月、企業が会員が制作した著作物を人工知能の訓練に利用する場合にはライセンス料を支払うべきだと論文で発表した。

プログラマー向けの Q&A サイトである Stack Overflow の CEO であるプラシャンス チャンドラセカール氏は、「私たちにとって本当に重要なのは、情報の所有権です。」と述べました。 「Stack Overflow コミュニティは、過去 15 年間、質問に答えるために多大な努力を費やしてきました。私たちは、その努力が確実に報われるようにしたいと心から思っています。」

多くの人為的なコンテンツが存在しました。 OpenAI の Dall-E 2 など、これまでの諜報サービスは学習を通じて画像を生成できましたが、知的財産の大規模な窃盗で告発されてきました。これらのシステムを作成した企業は現在、これらの申し立てをめぐって訴訟を起こしている。 AIが生成したテキストをめぐる争いはさらに大きくなる可能性があり、報酬や信用の問題だけでなく、プライバシーの問題も絡む。

しかし、ワシントン大学の計算言語学者であるエミリー・M・ベンダー氏は、現行法の下では人工知能機関は自らの行動に責任を負っていないと考えている。

この論争は、人工知能チャットボットの開発方法に起因しています。これらのロボットの中核となるアルゴリズムは「大規模言語モデル アルゴリズム」と呼ばれ、大量の既存の言語テキスト データを吸収して処理することで、人間の音声の内容と方法を模倣する必要があります。このタイプのデータは、Facebook の親会社である Meta Platforms などのサービスがインターネット上で使い慣れているターゲティング広告に使用する行動情報や個人情報とは異なります。

このデータは、Reddit ユーザーによる数億件の投稿など、さまざまなサービスを使用して人間のユーザーによって作成されます。人工的に生成された単語の十分な量のライブラリを見つけることができるのはインターネットだけです。これがなければ、今日のチャットベースの AI や関連テクノロジーはいずれも成功しません。

非営利アレン人工知能研究所の研究科学者ジェシー・ドッジ氏は、2021年の論文で、ウィキペディアと大小の報道機関の著作権で保護された無数のウェブサイトが、ほとんどのサイトに存在していることを発見しました。一般的に使用される Web クローラー データベース。 Google と Facebook はどちらもこのデータセットを使用して大規模な言語モデルをトレーニングしており、OpenAI も同様のデータベースを使用しています。

OpenAIは現在、データソースを公開していませんが、同社が2020年に発表した論文によると、その大規模な言語モデルはRedditから収集した投稿を使用して、人工知能のトレーニングに使用されるデータをフィルタリングおよび改善しています。

Redditの広報担当者Tim Rathschmidt氏は、データにアクセスするために課金会社からどれだけの収益が得られるかは不明だが、彼らが保有するデータは今日の最先端の大規模言語モデルの改善に役立つ可能性があると信じていると述べた。 。

報道によると、出版業界の幹部らは、ChatGPT やその他の人工知能ツールのトレーニングに自社のコンテンツがどの程度使用されているのかを調査しているとのことです。彼らはどのように補償されるべきだと考えていますか?そして、彼らは自分たちの権利を守るためにどのような法律を利用できるのでしょうか?しかし、同組織の法務顧問ダニエル・コフィー氏は、これまでのところ、大規模なAIチャットエンジン(Google、OpenAI、Microsoftなど)の所有者との間で、チャットの一部を彼らに支払わせるという合意には達していないと述べた。 News Media Alliance のメンバーから収集したトレーニング データ。

ツイッター社はコメントの要請に応じなかった。マイクロソフトはコメントを控えた。 Googleの広報担当者は「当社には、クリエイターやパブリッシャーがコンテンツを収益化し、視聴者との関係を強化できるよう支援してきた長い歴史がある。当社のAI原則に沿って、今後も責任ある倫理的な方法で支援していく」と述べた。広報担当者はまた、「まだ初期段階にある」とし、グーグルはオープンネットワークに有益な人工知能を構築する方法について意見を求めていると述べた。

法的および倫理的泥沼

場合によっては、オープン Web 上で利用可能なデータのコピー (スクレイピングとも呼ばれます) が合法ですが、企業はまだ、いつどこでどのようにコピーしたかについて議論しています。そうすることを許可するかどうかが議論されました。

ほとんどの企業や組織は、人々がコンテンツを見つけられるように、検索エンジンによってデータが検出され、インデックスが付けられるようにしたいため、データをオンラインに公開することに積極的です。ただし、このデータをコピーして人工知能をトレーニングすることは、元のソースを見つける必要性を置き換えることとはまったく異なります。

計算言語学者のベンダー氏は、人工知能を訓練するためにインターネットから情報を収集するテクノロジー企業は、「我々はそれを受け入れることができる、したがってそれは我々のものである」という原則に基づいて活動していると述べた。テキスト (書籍、雑誌記事、個人ブログのエッセイ、特許、科学論文、Wikipedia コンテンツを含む) をチャットボット回答に変換すると、素材のソースへのリンクが削除されます。また、ボットが何を伝えているかをユーザーが確認することも難しくなります。これは、嘘をつきやすいシステムにとっては大きな問題です。

これらの大規模なスクレイピングは私たちの個人情報も盗みます。 Common Crawl は、10 年以上にわたってオープン Web 上の膨大な量のコンテンツをクロールし、そのデータベースを研究者が自由に利用できるようにしている非営利団体です。 Common Crawl のデータベースは、Google、Meta、OpenAI など、人工知能のトレーニングを検討している企業の出発点としても使用されます。

Common Crawl のデータ サイエンティスト兼エンジニアである Sebastian Nagel 氏は、何年も前に書いた、その後削除されたブログ投稿がまだ残っている可能性があると述べています。それは、何年も前の Web コンテンツを使用する OpenAI によって使用されるトレーニング データに存在する可能性があります。人工知能を訓練する前に。

Google や Microsoft が所有する検索インデックスとは異なり、トレーニングされた AI から個人情報を削除するには、モデル全体を再トレーニングする必要があるとベンダー氏は述べています。また、ダッジ氏は、大規模な言語モデルを再トレーニングするコストは非常に高くなる可能性があるため、たとえユーザーが人工知能のトレーニングに個人データが使用されたことを証明できたとしても、同社がそうする可能性は低いと述べた。膨大な計算能力が必要となるため、このようなモデルのトレーニングには数千万ドルの費用がかかる場合があります。

しかしダッジ氏は、ほとんどの場合、個人情報を含むデータセットでAIを訓練してその情報を吐き出すことも困難であると付け加えた。 OpenAIは、個人情報の要求を拒否するためにチャットベースのシステムを調整したと述べた。欧州連合と米国政府は、この種の人工知能を管理するための新しい法律と規制を検討しています。

説明責任と利益分配

AI 支持者の中には、AI は人間が学習する方法であるため、エンジニアが取得できるすべてのデータにアクセスできるべきだと考えている人もいます。論理的に考えて、なぜ機械がこれを行うべきではないのでしょうか?

ベンダー氏は、人工知能はまだ人間と同じではないという事実は別として、上記の観点には問題がある、つまり、現在の法律によれば、人工知能は人間の責任を負うことはできない、と述べた。自分自身の行動。他人の作品を盗用したり、誤った情報を真実として再パッケージ化しようとしたりする人は、深刻な結果に直面する可能性がありますが、マシンとその作成者は同じ責任を負いません。

もちろん、常にそうであるとは限りません。著作権所有者のゲッティが、知的財産をトレーニング データとして使用したとして画像生成 AI 企業を訴えたように、企業やその他の組織が自社のコンテンツを許可なく使用した場合、チャットベースの AI のメーカーを訴えることになるでしょう。令状まで。

無数の人々によって書かれたこれらの個人的なエッセイ、無名のフォーラムや消滅したソーシャル ネットワークに投稿された投稿、その他あらゆる種類のものによって、今日のチャットボットはライターと同じくらいの能力を発揮することができます。おそらく、これらのコンテンツの作成者がこれによって得られる唯一の利益は、言語の使用という点でチャットボットの育成に何らかの貢献をしたということです。

以上がチャットボットはインターネットを消化しつつあり、インターネットはその恩恵を受けようとしていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。