ホームページ > 記事 > テクノロジー周辺機器 > AIが小説を書いたり、絵を描いたり、動画をカットしたりする生成AIがさらに人気に!
最近、生成 AI が再び人気になってきています。 「Dream Stealer」と呼ばれる WeChat アプレットはすぐにヒットし、毎日 50,000 人の新規ユーザーを追加するという記録に達しました。
Dream Stealer は、入力テキストに基づいて画像を生成できる AI プラットフォームであり、AIGC (AI-Generated Content) の一部門です。
ユーザーが想像力を働かせてテキストの説明を入力すると、Dream Stealer は 1:1、9:16、16:9 の 3 つの比率で画像を生成でき、24 の描画スタイルから選択できます。油絵、水彩、スケッチなどの基本的な絵画タイプに加え、サイバーパンク、ヴェイパーウェーブ、ピクセル アート、ジブリ、CG レンダリングなどの特殊なスタイルも含まれています。
写真: Technology Cloud Report エディターは「Dream Stealer」WeChat アプレットを使用して生成
実は、これは最初の「Yiwensheng」グラフ」AI ではありませんソフトウェア。 Midjourney から Stable Diffusion に至るまで、生成 AI は過去 2 年間で最もホットなトピックでした。
AI 開発の重要な方向性として、生成 AI には大きな発展の可能性があります。
今年上半期の Gartner のデータによると、生成 AI は現在 1% 未満ですが、2025 年までに全生成データの 10% を占めるようになると予想されています。
一部の人々は、2022 年は生成 AI がテクノロジーから成熟し、社会の基礎に浸透する最初の年になると信じています。
近年、視覚分野における AI 技術の発展は「急速」と言えます。
昨年 1 月、「一般的な人工知能で全人類に利益をもたらす」ことに特化した企業である OpenAI は、GPT-3 モデルに基づく画期的な DALL-E をリリースしました。文章。
今年 4 月、OpenAI によってリリースされた第 2 世代 DALL-E 2 モデルは、画像生成の分野で再び新しいベンチマークを設定しました。
ユーザーは短いテキストの説明 (プロンプト) を通じて対応する画像を生成できるため、絵を描くことができない人でも、「バスケットボールをしているアルパカ」という文など、想像力を芸術的な作品に変えることができます。このルックによって生成された 4 つの画像誰もが期待する想像と非常に一致しています。
DALL-E 2 モデルで生成された画像の例
それだけでなく、テキストの説明の粒度が改良され続けるにつれて、生成される画像も精度が高ければ高いほど、その効果は専門家以外の人にとっては非常に衝撃的なものになります。
しかし、DALL-E 2 のようなモデルは依然として 2 次元の作成、つまり画像生成の分野にとどまっており、行き止まりのない 360 度の 3D モデルを生成することはできません。
しかし、非常に創造的なアルゴリズム研究者にとって、これはまだ難しいことではありません。Google Research-DreamFusion モデルの最新の成果の 1 つは、単純なテキスト プロンプトを入力することで 3D モデルを生成できます。これは、さまざまな環境で 3D モデルを生成できるだけでなく、レンダリングは以下で行われ、生成される 3D モデルには濃度や色などの特性もあり、生成された複数の 3D モデルを 1 つのシーンに統合することもできます。
3D 画像を生成した後、Meta のアルゴリズム スタッフはさらにアイデアを広げ、より高い難易度に挑戦し、テキスト プロンプトを使用してビデオを直接生成することを検討し始めました。
ビデオは本質的に一連の画像を重ね合わせたものですが、画像の生成と比較して、テキストを使用してビデオを生成する場合は、同じシーン内で複数のフレームを生成するだけでなく、隣接するフレーム間のコヒーレンス。モデルのトレーニング時に利用できる高品質のビデオ データはほとんどなく、計算量が非常に多いため、ビデオ生成タスクの複雑さが大幅に増加します。
今年 9 月、Meta の研究者は、人工知能に基づく高品質の短編ビデオ生成モデルである Make-A-Video をリリースしました。これは、「Make」とも呼ばれる DALL-E のビデオ版に相当します。 「口でビデオ」とは、テキスト プロンプトを通じて新しいビデオ コンテンツを作成できることを意味します。その背後にある主要なテクノロジも、DALL-E などの画像ジェネレータで使用される「テキスト画像」合成テクノロジから来ています。
わずか 1 週間後、Google CEO のピチャイは、Meta の Make-A-Video に正面から挑戦する 2 つのモデル、つまり Imagen Video と Phenaki を正式に発表しました。
Make-A-Video と比較すると、Imagen Video はビデオの高解像度特性を強調し、解像度 1280*768、毎秒 24 フレームのビデオ クリップを生成でき、さまざまな芸術的スタイルの作品を理解して生成することもできます。 ;
オブジェクトの 3D 構造を理解し、回転表示時に変形しません;
Imagen のテキストを正確に描写する機能も継承しており、これをベースに、簡単な記述だけでさまざまなクリエイティブを生成できますアイデアアニメーション。
Imagen Video で生成されたビデオの例
そして、Phenaki は、約 200 単語のプロンプトに基づいて、2 分を超える低解像度のロングショットを生成できます。比較的完全な物語を語ります。
Phenaki 生成ビデオの例
現在、中国には多くの生成 AI アプリケーションがあります。
たとえば、ByteDance の Jianying APP は AI 生成のビデオ機能を提供しており、無料で使用できます。
切り抜き画像テキスト機能は Google に似ており、クリエイターはいくつかのキーワードや短い段落のテキストからクリエイティブな短いビデオを生成できます。
Clip Screen は、テキストの説明に基づいてビデオ素材をインテリジェントに照合し、金融、歴史、人文科学、その他のカテゴリを含む、より垂直的なコンテンツ作品にビデオをパッケージ化することもできます。
2022年1月、NetEaseは、ユーザーが編集した新年の挨拶をAIが曲に変換するワンストップAI音楽作成プラットフォーム「NetEase Tianyin」を立ち上げ、上半期にはウェブサイドのプロフェッショナルバージョンをリリースしました今年の。
2021 年 9 月に、さまざまなタイプのテキストを作成できる Caiyun Xiaomeng APP がリリースされました。ユーザーは 1 ~ 1000 語の冒頭を入力するだけで、Caiyun Xiaomeng は次のストーリーを書き続けることができます。
実際、AI の作成にはさまざまな形式があります。生成AI技術を文章に応用すると、ジャーナリスト、小説家、詩人、脚本家などの機械版が生まれ、絵画、音楽、ダンスの分野に応用すると、画家、作曲家、編集者を「育成」できる. ダンススタッフ。
過去 1 年で、生成型 AI はさらに進化しました。 Google、Microsoft、Meta などの AI 分野のソフトウェア大手は、このテクノロジーを社内で推進し、生成 AI を自社の製品に統合しています。
なぜ生成 AI が突然人気になったのでしょうか?
実際、生成 AI テクノロジーは急速に発展していますが、技術的な敷居が高いため、ほとんどテクノロジーの世界の小さなサークルに限定されていました。
AI テクノロジーの開発の歴史を振り返ると、生成 AI の爆発的な普及には、より優れたモデル、より多くのデータ、より多くの計算という 3 つの要素が不可欠であることがわかります。
2015 年以前は、小型モデルは言語を理解するための「最先端のテクノロジー」とみなされていました。これらの小型モデルは分析タスクに優れており、配達時間の予測から不正行為の分類に至るまでのさまざまなジョブに導入されています。
ただし、その表現力は一般的な生成タスクには十分ではありません。人間レベルの記述やコードを生成することは、まだ夢にすぎません。
2017 年、Google Research は、高品質の優れた言語モデルを同時に生成できるトランスフォーマーと呼ばれる、自然言語理解のための新しいニューラル ネットワーク アーキテクチャについて説明した画期的な論文 (Attending is All You Need) を発表しました。並列化が可能になり、必要なトレーニング時間が大幅に短縮されます。
もちろん、モデルが大きくなるにつれて、超人的なパフォーマンスを発揮し始めます。これらのモデルのトレーニングに使用される計算量は 2015 年から 2020 年にかけて 6 桁増加し、その結果は手書き、音声および画像認識、読解、言語理解における人間のパフォーマンスのベンチマークを超えました。
その中でも OpenAI の GPT-3 は際立っており、このモデルのパフォーマンスは GPT-2 を大幅に上回り、コード生成からジョークの作成まで優れた機能を示しています。
基礎研究におけるあらゆる進歩にもかかわらず、これらのモデルは普遍的なものではありません。
これらは大規模で、実行が難しく (GPU 調整が必要)、広く利用できず (利用できないか、クローズド ベータ版のみ)、クラウド サービスとして使用するには高価です。
しかし、これらの制限にもかかわらず、初期の生成 AI アプリケーションが戦場に投入され始めています。
その後、コンピューティングが安価になるにつれて、業界はより優れたアルゴリズムとより大規模なモデルの開発を続けました。
開発者の権限は、クローズド ベータからオープン ベータ、または場合によってはオープン ソースに拡張されます。
現在、プラットフォーム層が強固であり、モデルがより良く、より速く、より安価になり続け、無料でオープンソースになる傾向にあるモデルへのアクセスと相まって、AI アプリケーション層は創造性を発揮するのに熟しています。爆発する。
たとえば、今年 8 月に、テキスト画像生成モデル Stable Diffusion がオープンソース化されました。後継者は、このオープンソース ツールをより適切に使用して、よりリッチなコンテンツ エコロジーを掘り起こし、それをより広範囲の C 言語に普及させることができます。 -エンドユーザーは重要な役割を果たします。
Stable Diffusion の人気は、基本的にオープンソースが創造性を解放することにあります。
ベンチャーキャピタル機関 Sequoia Capital は、公式 Web サイトのブログ投稿で次のように述べています。「ジェネレーティブ AI は米国で数兆の経済価値を生み出す可能性を秘めています。 Sequoia Capital によると、生成 AI は、ゲームから広告、法律に至るまで、人間がオリジナルの作品を作成する必要があるあらゆる業界を変革することができます。
具体的には、将来の生成型 AI の適用シーンは非常に幅広く、文化創造やニュースなどのコンテンツ制作産業に加え、ヘルスケア、デジタルコマース、製造、農業、その他の産業には、医師による X 線、CT、その他の機器スキャンでの病変の検出の支援、商品のデジタル ツインの作成、製品の品質テストの支援など、豊富な応用の可能性があります。
XR、デジタルツイン、自動運転車などの人気のテクノロジーにも応用できる余地が豊富にあります。
しかし、現在の生成 AI には解決すべき問題がまだ多くあることは注目に値します。
たとえば、エンターテインメントの分野で、多くの人が創作に生成 AI を使用する理由の 1 つは、著作権の問題を回避するためですが、これは隠れた危険がないことを意味するものではありません。
AIの作成は、学習したデータを要件に応じて組み替える一方で、その粒度はますます細かくなっていますが、一部の鋭い目を持つ人にはそれが見えてしまうのは避けられません。一部のネチズンは、ソーシャル プラットフォーム上で、AI が生成した写真に疑わしい署名の痕跡を漠然と見た、とさえ述べています。
一方、現在の AI 生成プラットフォームの多くは、著作権を主張していないか、商用利用可能であることを明記していません。このような著作権環境が存在するのか、新たな著作権問題が生じるのかどうかも議論する必要がある。
生成 AI のロジックとセキュリティも改善する必要があります。現在の生成型 AI は常識的な間違いを犯しやすく、長期記憶が必要な分野でも問題が発生しやすいです。
たとえば、AIが小説を生成する過程では、長さによって矛盾が生じることがよくあります。
したがって、生成型 AI がすでに多くの分野で応用可能であるとしても、生成型 AI を実際に機能させるには、「間違い」を避けるために大量のトレーニングを行う必要があります。 AI による大きな損失。
結局のところ、医療や製造などのアプリケーション シナリオには、文化産業やクリエイティブ産業ほど試行錯誤の余地がありません。
生成型 AI は現在人間の介入と切り離せないものですが、生成型 AI が依然として大きな発展の可能性を秘めていることは否定できません。
生成型 AI の出現は、AI が現実のコンテンツにおいて新たな役割を引き受け始め、「観察と予測」から「直接生成と意思決定」に拡大することを意味します。言い換えれば、生成 AI は分析するだけでなく、創造するということです。
OpenAI CEO サム アルトマン氏は次のように述べています。「生成 AI は、人工知能について予測するのが難しいことを私たちに思い出させます。
10 年前従来の通念では、AI は最初に肉体労働に影響を与え、次に認知労働に影響を与え、そしていつか創造的な仕事ができるようになるだろうというものでした。現在では、それは逆の順序で起こるようです。」
以上がAIが小説を書いたり、絵を描いたり、動画をカットしたりする生成AIがさらに人気に!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。