最近、生成 AI が再び人気になってきています。 「Dream Stealer」と呼ばれる WeChat アプレットはすぐにヒットし、毎日 50,000 人の新規ユーザーを追加するという記録に達しました。
Dream Stealer は、入力テキストに基づいて画像を生成できる AI プラットフォームであり、AIGC (AI-Generated Content) の一部門です。
ユーザーが想像力を働かせてテキストの説明を入力すると、Dream Stealer は 1:1、9:16、16:9 の 3 つの比率で画像を生成でき、24 の描画スタイルから選択できます。油絵、水彩、スケッチなどの基本的な絵画タイプに加え、サイバーパンク、ヴェイパーウェーブ、ピクセル アート、ジブリ、CG レンダリングなどの特殊なスタイルも含まれています。
写真: Technology Cloud Report エディターは「Dream Stealer」WeChat アプレットを使用して生成
実は、これは最初の「Yiwensheng」グラフ」AI ではありませんソフトウェア。 Midjourney から Stable Diffusion に至るまで、生成 AI は過去 2 年間で最もホットなトピックでした。
AI 開発の重要な方向性として、生成 AI には大きな発展の可能性があります。
今年上半期の Gartner のデータによると、生成 AI は現在 1% 未満ですが、2025 年までに全生成データの 10% を占めるようになると予想されています。
一部の人々は、2022 年は生成 AI がテクノロジーから成熟し、社会の基礎に浸透する最初の年になると信じています。
爆発的な成長を遂げる生成型 AI: 写真から動画へ
近年、視覚分野における AI 技術の発展は「急速」と言えます。
昨年 1 月、「一般的な人工知能で全人類に利益をもたらす」ことに特化した企業である OpenAI は、GPT-3 モデルに基づく画期的な DALL-E をリリースしました。文章。
今年 4 月、OpenAI によってリリースされた第 2 世代 DALL-E 2 モデルは、画像生成の分野で再び新しいベンチマークを設定しました。
ユーザーは短いテキストの説明 (プロンプト) を通じて対応する画像を生成できるため、絵を描くことができない人でも、「バスケットボールをしているアルパカ」という文など、想像力を芸術的な作品に変えることができます。このルックによって生成された 4 つの画像誰もが期待する想像と非常に一致しています。
DALL-E 2 モデルで生成された画像の例
それだけでなく、テキストの説明の粒度が改良され続けるにつれて、生成される画像も精度が高ければ高いほど、その効果は専門家以外の人にとっては非常に衝撃的なものになります。
しかし、DALL-E 2 のようなモデルは依然として 2 次元の作成、つまり画像生成の分野にとどまっており、行き止まりのない 360 度の 3D モデルを生成することはできません。
しかし、非常に創造的なアルゴリズム研究者にとって、これはまだ難しいことではありません。Google Research-DreamFusion モデルの最新の成果の 1 つは、単純なテキスト プロンプトを入力することで 3D モデルを生成できます。これは、さまざまな環境で 3D モデルを生成できるだけでなく、レンダリングは以下で行われ、生成される 3D モデルには濃度や色などの特性もあり、生成された複数の 3D モデルを 1 つのシーンに統合することもできます。
3D 画像を生成した後、Meta のアルゴリズム スタッフはさらにアイデアを広げ、より高い難易度に挑戦し、テキスト プロンプトを使用してビデオを直接生成することを検討し始めました。
ビデオは本質的に一連の画像を重ね合わせたものですが、画像の生成と比較して、テキストを使用してビデオを生成する場合は、同じシーン内で複数のフレームを生成するだけでなく、隣接するフレーム間のコヒーレンス。モデルのトレーニング時に利用できる高品質のビデオ データはほとんどなく、計算量が非常に多いため、ビデオ生成タスクの複雑さが大幅に増加します。
今年 9 月、Meta の研究者は、人工知能に基づく高品質の短編ビデオ生成モデルである Make-A-Video をリリースしました。これは、「Make」とも呼ばれる DALL-E のビデオ版に相当します。 「口でビデオ」とは、テキスト プロンプトを通じて新しいビデオ コンテンツを作成できることを意味します。その背後にある主要なテクノロジも、DALL-E などの画像ジェネレータで使用される「テキスト画像」合成テクノロジから来ています。
わずか 1 週間後、Google CEO のピチャイは、Meta の Make-A-Video に正面から挑戦する 2 つのモデル、つまり Imagen Video と Phenaki を正式に発表しました。
Make-A-Video と比較すると、Imagen Video はビデオの高解像度特性を強調し、解像度 1280*768、毎秒 24 フレームのビデオ クリップを生成でき、さまざまな芸術的スタイルの作品を理解して生成することもできます。 ;
オブジェクトの 3D 構造を理解し、回転表示時に変形しません;
Imagen のテキストを正確に描写する機能も継承しており、これをベースに、簡単な記述だけでさまざまなクリエイティブを生成できますアイデアアニメーション。
Imagen Video で生成されたビデオの例
そして、Phenaki は、約 200 単語のプロンプトに基づいて、2 分を超える低解像度のロングショットを生成できます。比較的完全な物語を語ります。
Phenaki 生成ビデオの例
現在、中国には多くの生成 AI アプリケーションがあります。
たとえば、ByteDance の Jianying APP は AI 生成のビデオ機能を提供しており、無料で使用できます。
切り抜き画像テキスト機能は Google に似ており、クリエイターはいくつかのキーワードや短い段落のテキストからクリエイティブな短いビデオを生成できます。
Clip Screen は、テキストの説明に基づいてビデオ素材をインテリジェントに照合し、金融、歴史、人文科学、その他のカテゴリを含む、より垂直的なコンテンツ作品にビデオをパッケージ化することもできます。
2022年1月、NetEaseは、ユーザーが編集した新年の挨拶をAIが曲に変換するワンストップAI音楽作成プラットフォーム「NetEase Tianyin」を立ち上げ、上半期にはウェブサイドのプロフェッショナルバージョンをリリースしました今年の。
2021 年 9 月に、さまざまなタイプのテキストを作成できる Caiyun Xiaomeng APP がリリースされました。ユーザーは 1 ~ 1000 語の冒頭を入力するだけで、Caiyun Xiaomeng は次のストーリーを書き続けることができます。
実際、AI の作成にはさまざまな形式があります。生成AI技術を文章に応用すると、ジャーナリスト、小説家、詩人、脚本家などの機械版が生まれ、絵画、音楽、ダンスの分野に応用すると、画家、作曲家、編集者を「育成」できる. ダンススタッフ。
生成型 AI の爆発的な発展の裏側
過去 1 年で、生成型 AI はさらに進化しました。 Google、Microsoft、Meta などの AI 分野のソフトウェア大手は、このテクノロジーを社内で推進し、生成 AI を自社の製品に統合しています。
なぜ生成 AI が突然人気になったのでしょうか?
実際、生成 AI テクノロジーは急速に発展していますが、技術的な敷居が高いため、ほとんどテクノロジーの世界の小さなサークルに限定されていました。
AI テクノロジーの開発の歴史を振り返ると、生成 AI の爆発的な普及には、より優れたモデル、より多くのデータ、より多くの計算という 3 つの要素が不可欠であることがわかります。
2015 年以前は、小型モデルは言語を理解するための「最先端のテクノロジー」とみなされていました。これらの小型モデルは分析タスクに優れており、配達時間の予測から不正行為の分類に至るまでのさまざまなジョブに導入されています。
ただし、その表現力は一般的な生成タスクには十分ではありません。人間レベルの記述やコードを生成することは、まだ夢にすぎません。
2017 年、Google Research は、高品質の優れた言語モデルを同時に生成できるトランスフォーマーと呼ばれる、自然言語理解のための新しいニューラル ネットワーク アーキテクチャについて説明した画期的な論文 (Attending is All You Need) を発表しました。並列化が可能になり、必要なトレーニング時間が大幅に短縮されます。
もちろん、モデルが大きくなるにつれて、超人的なパフォーマンスを発揮し始めます。これらのモデルのトレーニングに使用される計算量は 2015 年から 2020 年にかけて 6 桁増加し、その結果は手書き、音声および画像認識、読解、言語理解における人間のパフォーマンスのベンチマークを超えました。
その中でも OpenAI の GPT-3 は際立っており、このモデルのパフォーマンスは GPT-2 を大幅に上回り、コード生成からジョークの作成まで優れた機能を示しています。
基礎研究におけるあらゆる進歩にもかかわらず、これらのモデルは普遍的なものではありません。
これらは大規模で、実行が難しく (GPU 調整が必要)、広く利用できず (利用できないか、クローズド ベータ版のみ)、クラウド サービスとして使用するには高価です。
しかし、これらの制限にもかかわらず、初期の生成 AI アプリケーションが戦場に投入され始めています。
その後、コンピューティングが安価になるにつれて、業界はより優れたアルゴリズムとより大規模なモデルの開発を続けました。
開発者の権限は、クローズド ベータからオープン ベータ、または場合によってはオープン ソースに拡張されます。
現在、プラットフォーム層が強固であり、モデルがより良く、より速く、より安価になり続け、無料でオープンソースになる傾向にあるモデルへのアクセスと相まって、AI アプリケーション層は創造性を発揮するのに熟しています。爆発する。
たとえば、今年 8 月に、テキスト画像生成モデル Stable Diffusion がオープンソース化されました。後継者は、このオープンソース ツールをより適切に使用して、よりリッチなコンテンツ エコロジーを掘り起こし、それをより広範囲の C 言語に普及させることができます。 -エンドユーザーは重要な役割を果たします。
Stable Diffusion の人気は、基本的にオープンソースが創造性を解放することにあります。
ジェネレーティブ AI は真の課題に直面している
ベンチャーキャピタル機関 Sequoia Capital は、公式 Web サイトのブログ投稿で次のように述べています。「ジェネレーティブ AI は米国で数兆の経済価値を生み出す可能性を秘めています。 Sequoia Capital によると、生成 AI は、ゲームから広告、法律に至るまで、人間がオリジナルの作品を作成する必要があるあらゆる業界を変革することができます。
具体的には、将来の生成型 AI の適用シーンは非常に幅広く、文化創造やニュースなどのコンテンツ制作産業に加え、ヘルスケア、デジタルコマース、製造、農業、その他の産業には、医師による X 線、CT、その他の機器スキャンでの病変の検出の支援、商品のデジタル ツインの作成、製品の品質テストの支援など、豊富な応用の可能性があります。
XR、デジタルツイン、自動運転車などの人気のテクノロジーにも応用できる余地が豊富にあります。
しかし、現在の生成 AI には解決すべき問題がまだ多くあることは注目に値します。
たとえば、エンターテインメントの分野で、多くの人が創作に生成 AI を使用する理由の 1 つは、著作権の問題を回避するためですが、これは隠れた危険がないことを意味するものではありません。
AIの作成は、学習したデータを要件に応じて組み替える一方で、その粒度はますます細かくなっていますが、一部の鋭い目を持つ人にはそれが見えてしまうのは避けられません。一部のネチズンは、ソーシャル プラットフォーム上で、AI が生成した写真に疑わしい署名の痕跡を漠然と見た、とさえ述べています。
一方、現在の AI 生成プラットフォームの多くは、著作権を主張していないか、商用利用可能であることを明記していません。このような著作権環境が存在するのか、新たな著作権問題が生じるのかどうかも議論する必要がある。
生成 AI のロジックとセキュリティも改善する必要があります。現在の生成型 AI は常識的な間違いを犯しやすく、長期記憶が必要な分野でも問題が発生しやすいです。
たとえば、AIが小説を生成する過程では、長さによって矛盾が生じることがよくあります。
したがって、生成型 AI がすでに多くの分野で応用可能であるとしても、生成型 AI を実際に機能させるには、「間違い」を避けるために大量のトレーニングを行う必要があります。 AI による大きな損失。
結局のところ、医療や製造などのアプリケーション シナリオには、文化産業やクリエイティブ産業ほど試行錯誤の余地がありません。
結論
生成型 AI は現在人間の介入と切り離せないものですが、生成型 AI が依然として大きな発展の可能性を秘めていることは否定できません。
生成型 AI の出現は、AI が現実のコンテンツにおいて新たな役割を引き受け始め、「観察と予測」から「直接生成と意思決定」に拡大することを意味します。言い換えれば、生成 AI は分析するだけでなく、創造するということです。
OpenAI CEO サム アルトマン氏は次のように述べています。「生成 AI は、人工知能について予測するのが難しいことを私たちに思い出させます。
10 年前従来の通念では、AI は最初に肉体労働に影響を与え、次に認知労働に影響を与え、そしていつか創造的な仕事ができるようになるだろうというものでした。現在では、それは逆の順序で起こるようです。」
以上がAIが小説を書いたり、絵を描いたり、動画をカットしたりする生成AIがさらに人気に!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ホットトピック









