ホームページ > 記事 > テクノロジー周辺機器 > 著作権の戦い: ダモクレスの剣が AI 創作物に張り付いている
著者 | JAMES VINCENT
翻訳者 | Zhu Xianzhong
生成人工知能は、昨年以来ますます人気が高まっています。 Microsoft、Adobe、GitHub などの企業は、このテクノロジーを自社の製品に統合しており、新興企業は競争するために数億ドルを調達しており、テキストから画像への AI モデルが無数のモデルを生み出し、このソフトウェアは文化的な影響さえ与えています。文化。しかし、生成型 AI に関する業界の議論を注意深く聞いてみると、擁護者も批評家も同様に、ますます懸念する声調でこの質問をつぶやいているのを個人的に耳にするでしょう。「これらは実際に合法なのでしょうか?」
問題は、生成 AI システムのトレーニング方法が原因で発生します。ほとんどの機械学習ソフトウェアと同様に、これらはデータ内のパターンを識別して複製することによって機能します。しかし、これらのプログラムがコード、テキスト、音楽、アートの生成に使用するトレーニング データ自体は人間によって作成され、Web から収集されたものであり、そのデータの多くはそれ自体が何らかの形で著作権で保護されているためです。
遠い過去 (別名「2010 年代」) に住んでいる AI 研究者にとって、これは大したことではありません。当時、最先端のモデルでは、爪ほどの大きさの顔のぼやけた白黒画像しか生成できませんでした。人間に対する明らかな脅威はありません。しかし、2022 年には、Stable Diffusion のようなソフトウェアを使用して、単なるアマチュアがアーティストのスタイルを数時間で複製できたり、企業が AI で生成されたプリントやソーシャル メディア フィルターを販売したりする時代には、これらはすべて生き生きとしています。そして、デザイナーの模造品となると、倫理はさらに差し迫ったものになります。
ディズニーのイラストレーターであるホリー・メンガートの例を見てみましょう。彼女は、カナダの機械工学の学生による人工知能の実験のために、自分の芸術的スタイルのクローンを発見しました。学生はモンゲの作品 32 点をダウンロードし、彼女のスタイルを再現できる機械学習モデルのトレーニングに数時間を費やしました。モンガート氏は技術専門家のアンディ・バイオ氏(この事件を取材した)に次のように語った。「個人的には、私が学んだことを使って、誰かが私と同じ仕事をしているように感じます。私は2011年から美術学校を卒業してからアーティストとして活動していましたが、私が同意せず、許可しないアートを作るためにそれを使用しました。」
しかし、それは公平でしょうか?モンゲルトはこれに関して何かできることはあるだろうか?
これらの質問に答え、生成 AI の法的状況を理解するために、The Verge は弁護士、アナリスト、AI スタートアップ企業の従業員など、さまざまな専門家に話を聞きました。これらのシステムには著作権侵害のリスクが高く、近い将来に重大な法的問題に直面する可能性があると自信を持って言う人もいます。反対の主張をする人もいます。生成 AI の分野で現在起こっていることはすべて合法であり、訴訟は必ず失敗するということです。
「双方の人々が自分たちの立場に非常に自信を持っているのが見えますが、現実は誰も知りません」と生成 AI シーンを注意深く観察しているバイオ氏は Verge に語った人事。 「この問題が法廷でどのように展開されるかを知っていると確信していると言う人は間違いだろう。」 諜報および知的財産法の学者であるアンドレス・グアダムス氏は、不明な要素は数多くあるものの、政府からの重要な疑問もいくつかあると述べた。このトピックに関する多くの不確実性が明らかになります。まず、生成 AI モデルの出力に著作権を付与できますか?もしそうなら、誰がそれを所有していますか?次に、AI のトレーニングに使用される入力の著作権を所有している場合、モデルまたはモデルが作成するコンテンツに関して法的請求を行うことができますか?これらの質問に答えが得られると、さらに大きな質問が生じます。このテクノロジーの影響にどのように対処しますか?データ収集に対してどのような法的制限を課すことができますか、課すべきですか?これらのシステムを構築する人々と、そのシステムを構築するためにデータを必要とする人々の間に平和は訪れることができるでしょうか?
これらの質問に 1 つずつ答えてみましょう。
#3. 出力質問: 人工知能モデルによって作成されたものの著作権を取得できますか?
今年 9 月、米国著作権局は、Open AI 企業の DALL に似た AI アートワーク ジェネレーターであるテキストから画像への AI Midstravel の助けを借りて作成された漫画本の登録を初めて承認しました。・E製品ソフトウェア)。このコミックは完全な作品です。キャラクター、会話、伝統的なコミックのレイアウトを含む 18 ページの物語です。米国著作権局がその決定を検討しているとの報道にもかかわらず、この漫画の著作権登録は実際には取り消されていない。審査の要素の一つは、コミックの制作に関わる人的投資のレベルにあるようだ。この作品を制作したアーティスト、クリスティーナ・カシュタノバさんはipwatchdog.comに対し、米国著作権局が「このグラフィックノベルの制作に多数の人間が関わっていることを示すために、私のプロセスの詳細を提供するよう求められた」と語った。 (米国著作権局自体は特定のケースについてはコメントしていません。)
Guadamuz 氏によると、AI を利用したコンテンツの生成に関しては、これは継続的な問題になるとのことです。作品。 「単に『ゴッホの猫』と入力しただけでは、米国で著作権を取得するには十分ではないと思います」と彼は言う。 「しかし、プロンプトの実験を開始していくつかの画像を作成し、画像の微調整を開始し、トレント データの操作を開始し、さらにエンジニアリングを開始すると、それが著作権で保護されていることが完全にわかります。」
この基準を考慮すると、生成人工知能モデルの出力の大部分は、知能モデルはおそらく著作権で保護されません。これらは通常、いくつかのキーワードをプロンプトとして使用して大量生産されます。ただし、より複雑なプロセスを実行すると、より良いケースが得られます。これらには、ナショナル アート フェアのコンペティションで優勝した AI 生成の版画など、物議を醸す作品が含まれる場合があります。この場合、制作者はプロンプトを磨き、完成した作品を手動で編集するのに数週間を費やしたと述べており、かなりの知的投資が行われたことがわかります。
人工知能における著作権問題について著書があるコンピューター科学者のジョルジオ・フランチェシェリ氏は、人間のインプットの測定は欧州連合における訴訟の決定に「特に当てはまる」と述べた。そして、西側の AI スタートアップが重点を置いているもう 1 つの主要な管轄区域である英国では、法律がまた異なります。珍しいことに、英国はコンピューターのみで生成された作品に著作権を付与する数少ない国の一つですが、作者を「作品の創作に必要な手配をした人」とみなしています。繰り返しますが、複数の「読者」(この「人」はモデルの開発者ですか、それともそのオペレーターですか?) の問題がありますが、これにより、ある種の著作権保護を付与することが優先されます。
しかし最終的には、著作権の登録は最初のステップにすぎないとグアダムス氏は警告します。 「米国著作権局は裁判所ではない」と同氏は述べた。 「著作権侵害で誰かを訴えたい場合は、登録する必要がありますが、最終的にはこれが法的強制力があるかどうかを判断するのは裁判所になります。」
##5. 入力質問: 著作権で保護されたデータを使用して人工知能モデルをトレーニングできますか? ほとんどの専門家にとって、人工知能と著作権に関する最大の疑問は、これらのモデルのトレーニングに使用されるデータに関連しています。ほとんどのシステムは、Web から取得したテキスト、コード、画像などの大量のコンテンツに基づいてトレーニングされます。たとえば、最大かつ最も影響力のあるテキストからペイントへの技術の 1 つである安定拡散のトレーニング データセットには、WordPress や Blogspot の個人ブログから DeviantArt まで、数百のドメインから抽出された数十億の画像が含まれています。 Shutterstock や Getty Images などのストック画像サイト。実際、生成 AI のトレーニング データ セットは非常に膨大なので、あなたもすでにその 1 つである可能性が十分にあります。 人工知能の研究者、新興企業、数十億ドル規模のテクノロジー企業が使用する理論的根拠は、これらの画像の使用は (少なくとも米国では) フェアユース原則によって保護されているというものです。 、表現の自由を促進するために著作権で保護された作品の使用を奨励することを目的としています。 ヴァンダービルト法科大学院のダニエル・ジャーヴェ教授は、何かがフェアユース要素であるかどうかを決定する際には多くの考慮事項があると説明しています。ジャーヴェ氏は知的財産法を専門とし、これが人工知能とどのように関係するかについて幅広く執筆しています。しかし同氏は、2つの要因が「より際立っている」と述べた。 「使用の目的や性質は何ですか、そして市場への影響は何ですか。」言い換えれば、使用事例が素材の性質を何らかの方法で変えるかどうか (多くの場合「変革的」使用と表現されます)、そして原作者とのコミュニケーションによって素材の性質が変わるかどうか、競合作品によって彼らの生活が脅かされているかどうか。 6.著作権で保護されたデータで生成 AI をトレーニングすることは合法かもしれませんが、モデルを違法な方法で使用している可能性があります
これらの要因に関連する責任を考慮すると、著作権で保護されたデータ トレーニング システムが公正に使用される「可能性が高い」とジャーヴェ氏は述べました。ただし、これは生成されたコンテンツには必ずしも当てはまりません。言い換えれば、他人のデータを使用して人工知能モデルをトレーニングすることはできますが、そのモデルを使用して行うことは侵害となる可能性があります。これは、偽のお金を作って映画を見に行くことと、偽のお金で車を買おうとすることの違いのようなものだと考えてください。
同じテキストから画像への AI モデルをさまざまなシナリオに導入した場合を考えてみましょう。モデルが何百万もの画像でトレーニングされ、新しい画像の生成に使用された場合、これが問題となる可能性は非常に低いです。海賊行為。その過程でトレーニング データは変換され、その出力はオリジナルのアートの市場を脅かすことはありません。しかし、特定のアーティストの 100 枚の写真に基づいてモデルを微調整し、同じスタイルで画像を生成すると、不幸なアーティストがあなたに対して強い主張をする可能性があります。
ジャーヴェ氏は、「AI にスティーヴン・キングの小説を 10 冊与えて、『スティーヴン・キングの小説を作って』と言ったら、あなたはスティーヴン・キングと直接話していることになります。競争です。これは人工知能の公正な使用?おそらくそうではありません。」
しかし、重要なことは、公正な使用と不当な使用の両極の間には、インプット、目的、アウトプットがすべて異なる方法でバランスがとれており、法的規制に何らかの影響を与える可能性がある状況が無数に存在するということです。裁定。
生成AI企業Womboのスタッフチーフ、ライアン・クラナ氏は、これらのサービスを販売するほとんどの企業がその違いを認識していると述べた。同氏は電子メールで「著作権で保護された作品に基づくヒントを意図的に使用して出力を生成することは…すべての大手企業の利用規約に違反する」と電子メールで述べたが、「これを強制するのは難しい」ため、同社はより関心を持っていると付け加えた。 「トレーニング データを制限するのではなく、モデルが著作権を侵害する方法で使用されるのを防ぐ方法を考え出すことです。」これは、監視やフィルタリングを行わずにトレーニングして使用できる、Stable Diffusion のようなオープンソースのテキストから画像へのモデルに特に当てはまります。同社は自らを隠蔽している可能性があるが、著作権を侵害する使用を助長している可能性もある。
フェアユースを判断する際のもう 1 つの変数は、トレーニング データとモデルが学術研究者や非営利団体によって作成されたかどうかです。これはフェアユースの防御を強化することが多く、スタートアップはそれを知っています。たとえば、Stability AI はモデルのトレーニング データを直接収集したり、ソフトウェアの背後でモデルをトレーニングしたりしません。その代わりに、学者らによってこの研究に資金提供と調整が行われ、安定した普及モデルはドイツの大学から認可を受けました。これにより、Stability AI は、発明者との法的距離を保ちながら、モデルを商用サービス (DreamStudio) に変えることができます。
Baio はこのアプローチを「AI データ クリーニング」と呼んでいます。同氏は、このアプローチは以前にも顔認識 AI ソフトウェアの作成に使用されていると指摘し、ワシントン大学の研究者が Flickr から写真をスクレイピングして編集したデータセットである MegaFace の例を挙げました。バイオ氏は「学術研究者らがデータを取得し、消去して営利企業が利用した」と述べ、数百万枚の個人写真を含むデータは「顔認識会社クリアビューAI、法執行機関、中国政府が保有していた」と述べた。 ”。この繰り返しテストされ証明されたクリーニング プロセスは、生成 AI モデルの作成者を法的責任から守るのに役立つ可能性があります。
しかし、ジャーヴェ氏が指摘するように、アンディ・ウォーホルとプリンスをめぐる係争中の最高裁判所訴訟をめぐって現在多くの論争が巻き起こっていると、このすべてには最後のひねりがある。今後数か月以内に変更される可能性があります。この事件には、ウォーホルがプリンスの写真を使用して芸術作品を作成したことが関係していた。これはフェアユースですか、それとも著作権侵害ですか?
ジャーヴェ氏は次のように述べています。「最高裁判所はしばしば疑念を有利に運ぶので、そのときは通常、何か重要なことを行います。ここでも同じことをするだろうと思います。」 「そして、最高裁判所が法律を変えるのを待っている間、何もかもが法律で解決されたと言うのは危険です。」
生成的人工知能モデルのトレーニングがフェアユースの対象となることが判明したとしても、現場の問題はほとんど解決されません。これは、自分の作品がビジネス モデルを促進するために使用されることに怒っているアーティストをなだめることはできません。また、コードや音楽などの生成 AI の他の分野にも必ずしも適用されるわけではありません。これを念頭に置くと、問題は次のとおりです。技術的またはその他の方法で、生成 AI の発展を可能にする一方で、この分野を可能にする作品を作成したクリエイターにクレジットや報酬を提供するには、どのような救済策を導入できるでしょうか?
最も明白な提案は、データのライセンスを取得し、その作成者に料金を支払うことです。しかし、一部の人にとっては、これは業界を滅ぼすことになるでしょう。 『フェア・ラーニング』の著者であるブライアン・ケイシーとマーク・レムリーは、トレーニングデータセットが大きすぎて、「基礎となるすべての写真、ビデオ、オーディオファイル、またはテキストを新しい目的のためにライセンスする合理的な選択肢はなかった」と述べた。著作権の主張を認めることは、「著作権者が補償される代わりに、その使用がまったく許可されないと言うのと同じだ」と彼らは主張する。彼らが言うところの「公平な学習」を可能にすると、イノベーションが促進されるだけでなく、より優れた AI システムの開発も可能になります。
しかし、同様の規模と複雑さの著作権問題をすでに解決済みであり、再び解決できる可能性があると指摘する人もいます。 The Vergeがインタビューした何人かの専門家は、ファイル共有プログラムが大規模な著作権侵害の上に構築され、著作権を尊重する新しいプロトコルにつながる法的問題が浮上する前に繁栄していた音楽著作権侵害の時代との比較を引用した。
今月初め、Matthew Butterick 氏は The Verge に次のように語りました。現在、マシュー・バトリックは弁護士であり、人工知能モデルを訓練するためにデータを収集したとして企業を訴えている。 「これらのシステムはどのようにして実現するのでしょうか? 企業がライセンス契約を結び、コンテンツを合法的に持ち込むことによって実現します。すべての利害関係者が関与して、それを機能させます。私にとって、そのようなことが人工知能で起こることは不可能であるという考えは、大惨事です。8 、企業や研究者はすでにクリエイターに補償する方法を実験中
##Wombo の Ryan Khurana 氏も同様の結果を予測しています。 「さまざまな種類のライセンス、さまざまな著作権所有者、さまざまな仲介者が関与しているため、音楽にはこれまでで最も複雑な著作権規則があります。AI をめぐる法的問題の微妙な違いを考慮すると、私はこう語った」と同氏は The Verge に語った。生成の分野全体が音楽と同様のライセンス システムに進化すると考えています。」 他の代替案も試行中です。例えば、シャッターストックは、モデルをトレーニングするために自分の作品をAI企業に販売する個人に補償する基金を設立する計画だと述べた一方、DeviantArtは、オンラインで共有される画像にメタデータタグを作成し、AI研究者にコンテンツを改ざんしないよう警告した。 (少なくとも 1 つの小規模なソーシャル ネットワークである Cohost は、サイト上でこのラベルをすでに使用しており、研究者がわざわざその画像を削除したことが判明した場合には「法的措置を排除しない」と述べています。) しかし、これらの手法はコミュニティ内のアートのさまざまなグループからの批判に直面しました。 1 回限りのライセンス料で失われた生活を補えるでしょうか?現在導入されているスクラッチレス タグは、商業用人工知能システムのトレーニングにすでに作品が使用されているアーティストにどのように役立つのでしょうか? 多くのクリエイターにとって、ダメージは受けているようです。しかし、AI スタートアップは少なくとも将来に向けた新しいアプローチを提案しています。明らかな進歩は、AI 研究者が著作権侵害の可能性がないデータベースを作成するだけで済むことです。その理由は、その資料が適切にライセンスされているか、または AI トレーニングという特定の目的で作成されているためです。その一例が「The Stack」です。これは、著作権侵害の告発を避けるために特別に設計された人工知能のトレーニングに使用されるデータセットです。これには、最も寛容なオープンソース ライセンスを持つコードのみが含まれており、開発者は要求に応じてデータを削除する簡単な方法を提供します。その作成者らは、このモデルは業界全体で使用できると述べています。 「The Stack のアプローチは間違いなく他のメディアにも適用できます」と ServiceNow と提携して The Stack を開発した Hugging Face の機械学習および社会担当ディレクター、ヤシン・ジャーナイト氏は The Verge に語った。 「これは、AI トレーニング データが抽出されるプラットフォームのルールを考慮すると、最も効果的に機能する広範な同意メカニズムを探求するための重要な第一歩です。」とジャーナイト氏は、ハギング フェイスが AI 研究者による社会の「根本的な変革」の扱い方の確立に貢献したいと述べました。クリエイター。しかしこれまでのところ、同社のアプローチは異例だ。 9. 次に何が起こるでしょうか?これらの法的問題がどこに当てはまるとしても、生成人工知能の分野のさまざまなプレーヤーがすでに何かの準備をしています。このテクノロジーで何百万もの利益を上げている企業は、自分たちの行為はすべて合法であると繰り返し主張することで、自らの地位を固めています(その一方で、実際にはその主張に疑問を抱く人が誰もいないことをおそらく望んでいるでしょう)。 「無人地帯」の反対側では、著作権者は完全には行動を起こさずに暫定的な立場をとっている。ゲッティ イメージズは最近、AI コンテンツがクライアントに潜在的な法的リスクをもたらすとして AI コンテンツを禁止した(CEO のクレイグ・ピーターズ氏は先月ヴァージにこう語った)「私はそれが責任ある行為だとは思わない。むしろ、それはおそらく違法だと思う」また、音楽業界の業界団体 RIAA は、AI を活用した音楽ミキサーと音楽抽出装置が会員の著作権を侵害していると主張しています (ただし、実際に法的な異議申し立ては行っていません)。最近、Microsoft、GitHub、OpenAIに対して集団訴訟が起こされ、人工知能の著作権戦争の第一弾が発射され、上記3社がオープンソースコードを入手できなかったとして告発され、AIコーディングアシスタントを通じて意図的にコピーされたとしている。訴訟の弁護士らはThe Vergeとのインタビューで、これが生成型人工知能の分野全体に前例となる可能性があると述べた。実を言うと、訴訟があちこちで飛び交い始めると思います。 「
一方、グアダムス氏とバイオ氏は、関連する法的異議申し立てがこれ以上なされていないことに驚いたと述べた。「正直言って、驚いている」とグアダムス氏は語った。「しかし、部分的にはそれが原因だと思う」なぜなら、これらの業界は(起訴で)最初に負けることを恐れているからだ」とムッツ氏は語った。しかし、誰かが真実を明らかにしたら、あちこちで訴訟が飛び交うと思います。 「
バイオ氏によると、問題の 1 つは、このテクノロジーによって最も影響を受ける多くの人々、つまりアーティストやその他の人々が、法的に異議を申し立てるには良い立場にないということです。」リソースがありません」と彼は言い、「この種の訴訟は非常に費用と時間がかかるため、勝てるとわかっている場合にのみ進めるべきです。だからこそ、私はしばらくの間、AI アートを巡る最初の訴訟はストック画像サイトから起こるのではないかと考えていた。彼らはこのテクノロジーによって大幅な損失を被る用意があるようで、彼らの大規模なコーパスがこれらのモデルのトレーニングに使用されたことを明確に証明でき、それを法廷で争う資金も持っています。 「
グアダムス氏も同意した。「どれだけの費用がかかるかは誰もが知っている。誰が訴訟を起こしても、下級裁判所で判決が下され、その後控訴されることになるだろう」と彼は語った。再度上訴し、最終的には最高裁判所まで争われる可能性がある。
##元のリンク: https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data 翻訳者紹介Zhu Xianzhong 氏、51CTO コミュニティ編集者、51CTO エキスパートブロガー、講師、濰坊市の大学のコンピューター教師、フリーランス プログラミング業界のベテラン。以上が著作権の戦い: ダモクレスの剣が AI 創作物に張り付いているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。