ホームページ  >  記事  >  テクノロジー周辺機器  >  シリコンバレーは、単純なテキストを画像やビデオに変換できる生成 AI が台頭していることに賭けています。

シリコンバレーは、単純なテキストを画像やビデオに変換できる生成 AI が台頭していることに賭けています。

WBOY
WBOY転載
2023-04-09 23:11:082005ブラウズ

近年登場した、いわゆる「生成 AI」は、シリコンバレーの巨大テクノロジー企業やベンチャーキャピタルの関心を集めています。この種の AI は、少数の単語に基づいて、数秒で一致する画像を生成できます。 。アナリストは、このテクノロジーがさまざまな業界で広く使用され、数兆ドルの経済価値を生み出すだろうと予測しています。

これらのコンピューター プログラムによって生成された画像は、手の余分な指や手足の不自然な曲がりなど、完璧ではありません。同時に、画像ジェネレーターは、テキストを処理するときに、無意味な記号を生成するなどの問題にも遭遇します。しかし、これらの画像生成プログラムはテクノロジー ブームの始まりとなる可能性があります。シリコンバレーのベンチャーキャピタル会社 NextView Ventures の投資家である David Beisel 氏は、「過去 3 か月で、『生成型人工知能』という用語が流行語になりました。」

2021 年以降、生成型 AI テクノロジーAI は大きな進歩を遂げ、将来 AI が新世代のテクノロジー巨人に力を与えることを夢見て、多くの人が仕事を辞めて新しい会社を立ち上げるきっかけにさえなりました。

AI の分野は過去 5 年ほどで急成長を遂げていますが、その進歩のほとんどは既存のデータを理解することに関係しています。 AI モデルは、誰かが携帯電話で撮った写真に猫が写っているかどうかを認識できるほど効率的になりました。さらに、これらのモデルは、毎日何十億もの検索結果を Google 検索エンジンに提供するのに十分な信頼性を備えています。ただし、生成 AI モデルは、これまで利用できなかったまったく新しいものを生成できます。言い換えれば、データを分析するだけでなく作成するということです。

AI および機械学習プラットフォーム Craiyon Productive AI の創設者である Boris Dayma 氏は、次のように述べています。似たような古いイメージを作成するだけですが、以前とはまったく異なる新しいものを作成することもできます。」

シリコンバレーの有名なベンチャーキャピタル会社であるセコイア・キャピタルは、ウェブサイトに次のように投稿しました。ゲームから広告、法律に至るまで、生成 AI は人間の創造性が発揮されるあらゆる分野を変革する可能性を秘めています。このテクノロジーには数兆ドルの経済価値を生み出す可能性があります。」 さらに興味深いことに、セコイア キャピタルも投稿の中で次のように指摘しています。前述の記事の一部は GPT-3 によって書かれており、GPT-3 自体はテキストを生成できる生成 AI です。

Generative AI の仕組み

画像生成では、ディープ ラーニングと呼ばれる機械学習のサブセットの技術を使用します。ディープラーニングは、画像分類に関する 2012 年の画期的な論文によってテクノロジーへの関心が再燃して以来、AI の進歩の多くを推進してきました。深層学習では、プログラムがそのデータ内の関係を理解するまで、大規模なデータセットでトレーニングされたモデルを使用します。このモデルは、写真の中に犬がいるかどうかを識別したり、テキストを翻訳したりするなどのアプリケーションに使用できます。

画像ジェネレーターは、このプロセスを逆に行うことで機能します。英語をフランス語に翻訳する代わりに、英語のフレーズを画像に変換します。通常、これらは 2 つの主要な部分で構成され、1 つは最初のフレーズを処理する部分、もう 1 つはデータを画像に変換する部分です。

パート 1 生成 AI は、敵対的生成ネットワーク (敵対的生成ネットワーク、略して GAN) と呼ばれる手法に基づいています。以前は、これらの GAN は、存在しない人物の写真を生成するためによく使用されていました。基本的に、これらは 2 つの AI モデルを相互に比較して、所定の目標を満たす画像をより適切に作成することによって機能します。

新しいメソッドでは、コンバーターが使用されることがよくあります。コンバーターは、2017 年の論文で初めて Google によって提案された概念です。これは、より大きなデータセットを活用できる新興テクノロジーですが、トレーニングコストは数百万ドルに達する可能性があります。

最初に大きな注目を集めた画像ジェネレーターは、シリコンバレーのスタートアップ企業OpenAIが2021年に立ち上げたプロジェクト、Dall-Eだった。 OpenAI は今年、より強力な更新バージョンをリリースしました。 「Dall-E 2 のおかげで、これはまさに不気味の谷を越えた瞬間です。」と生成 AI を専門とする開発者のクリスチャン カントレル氏は述べています。 、オンラインで入手できます。ユーザーがフレーズを入力すると、数分以内に結果の描画がブラウザーで表示されます。

AIとマシンの作成者であるDaima氏によると、Craiyonは2021年7月の発売以来、現在1日あたり約1000万枚の画像を生成しており、合計10億枚のこれまでに見たことのない画像が生成されているという。学習プラットフォーム Craiyon Productive AI の写真。今年初めに使用量が急増した後、ダイマー氏はすべてのエネルギーを Craiyon に注ぎ始めました。同氏は、サイトのサーバーコストが高かったため、ユーザーを無料に保つために広告を使用することに重点を置いたと述べた。 Craiyon は、最も奇妙で創造的な画像を投稿することに特化した Twitter アカウントを持っており、フォロワー数は 100 万人を超えています。

しかし、最も熱狂を引き起こしたプロジェクトは、今年 8 月に一般公開された Stable Diffusion でした。そのコードは GitHub で入手でき、コンピュータ上、クラウド上、またはプログラミング インターフェイスを通じて実行できます。これにより、ユーザーはプログラム コードを自分の目的に合わせて調整したり、その上に新しいプログラムを構築したりすることができます。

たとえば、Stable Diffusion はプラグインを通じて Adob​​e Photoshop に統合されており、これによりユーザーは背景や画像の他の部分を生成し、レイヤーやその他の PS ツールを使用してアプリ内で直接操作して変換できます。生成された AI は、完成した画像を生成するテクノロジーから、専門家が使用できるツールへと進化します。

このプラグインの開発者である Cantrell 氏は、Adobe に 20 年間勤務し、生成 AI に注力するために今年退職しました。このベテランは、このプラグインは何万回もダウンロードされていると語った。アーティストたちは、ゴジラをアニメーション化したり、アーティストが想像できるあらゆるポーズでスパイダーマンの画像を作成したりするなど、彼が予想していなかった無数の場所でそれを使用したと彼に語った。

生成 AI を使用する新たな技術は、画像を生成するフレーズである「プロンプト」を構築する方法です。 Lexica と呼ばれる検索エンジンは、安定拡散の画像を、それらの生成に使用できる正確な単語の文字列と結び付けることができます。 Reddit や Discord などのプラットフォームには、画像を生成したいフレーズを入力させる方法に関するヒントが用意されています。

スタートアップ、クラウド サービス プロバイダー、チップ メーカーが最も恩恵を受ける可能性があります

多くの投資家は、生成 AI を、スマートフォンやインターネットのような、潜在的に変革をもたらすプラットフォームとして見ています。この変化により、このテクノロジーを使用できる可能性のある潜在的な市場の規模が大幅に拡大します。

Cantrell は、生成 AI はより基本的なテクノロジー、つまりデータベースに似ていると考えています。同氏は、「生成 AI はデータベースに似ています。データベースは、アプリケーションの大きな可能性を引き出すのに役立ちます。私たちが生活の中で使用するほとんどすべてのアプリケーションはデータベース上に構築されていますが、データベースがどのように機能するかなど誰も気にしません。彼らはただその仕組みを知っているだけです。」

Compound VC のマネージングパートナーである Michael Dempsey 氏は、これまで研究室に限定されていた技術が主流になり、リスクを引き付けることは「非常にまれ」であると述べ、投資家から多くの注目を集めていると述べた。大きな可能性を秘めた分野に賭けるのが好きです。しかし同氏は、生成型AIは現在、ハイプサイクルのピークに近い「好奇心の段階」にあると警告した。この段階の企業は、企業や消費者が喜んでお金を払う特定の用途に焦点を当てていないため、失敗する可能性があります。

この分野の他の関係者は、現在これらのテクノロジーを先駆的に開発している新興企業が、最終的には現在AI分野を支配しているGoogle、Facebookの親会社Meta、Microsoftなどのソフトウェア巨人に挑戦し、AIの台頭の舞台を整える可能性があると考えている。次世代のテクノロジー巨人への道を切り開く。

Hugging Face CEO Clement Delangue 氏は次のように述べています:「多数の新しい兆ドル企業が誕生し、これらの新興企業はこの新しいテクノロジーを基礎から活用するでしょう。」Hugging Face は GitHub に似た開発者プラットフォームです。 Craiyon や Stable Diffusio などの事前トレーニングされた AI モデルをホストします。その目標は、プログラマーが AI テクノロジーを構築しやすくすることです。

一部の企業は多額の投資を受けています。今年初めにラックス・キャピタルやセコイア・キャピタルなどの投資家から資金を調達した後、ヒューギング・フェイスの価値は20億ドルと評価された。この分野で最も著名なスタートアップである OpenAI は、Microsoft と Khosla Ventures から 10 億ドルを超える資金を受けています。一方、Stable Diffusionの開発会社Stability AIは、最大10億ドルの評価額でベンチャーキャピタルを調達する交渉を行っている。

生成 AI は計算集約型のテクノロジーである可能性があるため、Amazon、Microsoft、Google などのクラウド サービス プロバイダーも恩恵を受ける可能性があります。 Meta と Google は、この高度なテクノロジーを自社の製品に統合するために、この分野で最も優秀な人材を多数採用しました。 Meta は 9 月に、単なる画像ではなくビデオを生成することでテクノロジーを次のレベルに引き上げる Make-A-Video と呼ばれる AI イニシアチブを発表しました。

Meta CEO のマーク・ザッカーバーグ氏は自身の Facebook ページに次のように投稿しました。「これは驚くべき進歩です。ビデオを生成することは、写真を生成することよりはるかに困難です。なぜなら、正しく処理することに加えて、システムは各ピクセルを生成するだけでなく、予測する必要があるからです」 Google は最近、テキストを数分間のビデオに変換できる Phenaki と呼ばれるプログラム コードもリリースしました。

この流行は、Nvidia、AMD、Intel などのチップメーカーにも後押しとなる可能性があります。同社のグラフィックス プロセッサは AI モデルのトレーニングと展開に最適です。先週のカンファレンスで、Nvidiaの最高経営責任者(CEO)ジェンセン・フアン氏は、同社の最新チップの主な用途として生成AIを強調し、そのような技術は間もなく通信に革命を起こす可能性があると述べた。

しかし、エンドユーザーにとっての生成 AI のメリットはまだ限られています。最近の興奮の多くは、無料または低コストの実験を中心に展開しています。たとえば、一部の著者は、画像ジェネレータを使用して記事用のイラストを作成しようとしました。 Nvidia は、モデルを使用して、仮想ゲームの世界に配置できる人、動物、乗り物、家具の新しい 3D 画像を生成する実験を行っています。

倫理的問題は対処が難しい

最終的には、生成 AI を開発するすべての人が、画像ジェネレーターによってもたらされる倫理的問題に取り組まなければなりません。

まず第一は雇用問題です。多くのプログラムには強力なグラフィック プロセッサが必要ですが、コンピュータで生成されたコンテンツは、時給数百ドルのプロのイラストレーターの時間コストよりもはるかに安価です。生成 AI は、アーティスト、ビデオグラファー、その他の作品を作成して生計を立てている人々にとって大きな問題を引き起こす可能性があります。 Compound VC のマネージング パートナーである Michael Dempsey 氏は、「機械学習モデルは人間よりも優れ、高速で、安価になる可能性があることが判明しました。」と述べています。

Generate Modern AI は、独創性と所有権に関して、より複雑な課題ももたらすでしょう。この AI モデルは多数の既存の画像を使用してトレーニングされましたが、元の画像の作成者がオリジナルのスタイルで生成された画像の著作権を所有するかどうかについてはまだ議論されています。最近、あるアーティストが、主に MidJourney と呼ばれる生成 AI によって作成された画像を使用して、米国コロラド州のアート コンペティションで優勝しました。彼は優勝後のインタビューで、生成した何百もの画像の中から 1 つを選択し、PS で微調整して処理したと語った。

安定拡散によって生成された画像の一部には透かしが入っているように見え、元のデータセットの一部が著作権によって保護されていることを示唆しています。一部のヒント ガイドでは、そのアーティストの創造的なスタイルを模倣する際に、より良い結果を得るために、特定の存命アーティストの名前を使用するようユーザーにアドバイスしています。ゲッティイメージズは先月、著作権侵害紛争を懸念し、ユーザーが自社のストック画像データベースに生成AI画像をアップロードすることを禁止した。

画像ジェネレーターは、ミニオン、マーベルのキャラクター、ゲーム・オブ・スローンズの玉座など、商標登録されたキャラクターやオブジェクトの新しい画像を作成するために使用することもできます。画像生成ソフトウェアが改良されるにつれて、ユーザーをだまして誤った情報を信じ込ませたり、実際には起こらなかった出来事の画像やビデオを表示したりする可能性もあります。

開発者は、大量のデータでトレーニングされた AI モデルには、データに性別、人種、文化に関連するバイアスが含まれている可能性があり、その結果、モデルが出力に表示される可能性があるという可能性にも取り組む必要があります。偏見の。 Huging Face は倫理問題に関する資料を公開し、責任を持って AI モデルを開発する問題について議論しました。

Hugging Face CEO の Clement de Lange 氏は次のように述べています。「これらのモデルは確率的モデルであり、大規模なデータセットでトレーニングされており、多くのバイアスを吸収する傾向があるため、これらのモデルには短期的および現在の課題があると考えられています。」と彼は述べました。たとえば、生成 AI が「ソフトウェア エンジニア」の肖像画を描くように依頼されたところ、白人男性の画像が生成されました。

以上がシリコンバレーは、単純なテキストを画像やビデオに変換できる生成 AI が台頭していることに賭けています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。