ホームページ  >  記事  >  テクノロジー周辺機器  >  このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

王林
王林転載
2023-04-09 16:51:03764ブラウズ

最近、AI研究者兼デジタルアーティストのザンダー・スティーンブルージュ氏が、非常に衝撃的なビデオ「Journey Across Time」をアップロードしました。

原始の海洋から始まり、古代のトカゲ、恐竜、哺乳類、サル、オランウータン、類人猿、ホモサピエンス…そして最後にSFに至る、地球上の生命の偉大な進化。未来世界に現れた。

そして、Steenbrugge 氏も興奮気味にコメントしました。私たちは、生成人工知能がもはや単なる斬新な美学を意味するものではなく、強力で人間中心のシステムを構築できる素晴らしいツールに進化したという閾値を超えています。物語。ステーンブルージュ氏は、ビデオには36の連続したフレーズが使用されていると述べた。可能な限り最適な順序を見つけるために、彼は 1,000 を超える異なるヒントとシードを試し、多くの「ヒント エンジニアリング」テクニックをコードに適用して、何が機能し、何が機能しなかったかを判断しました。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

元 Tesla AI シニア ディレクターの Andrej Karpathy 氏は、この本を読んだ後非常にショックを受け、試しずにはいられませんでした。

「歯車でできたニューロンで覆われたベースの上に置かれた、脳の形をしたシュールなスチームパンクなニューラル ネットワーク マシン」このテキストを入力しながら その後、彼の傑作が生み出されました。

2 分のビデオ (A100 でレンダリングすると約 1 時間)。ランダム ノイズ入力によるモデル間のスムーズな補間によって生成されます。

安定拡散と呼ばれるこのモデルは、2 つの文の意味の間の「補間」方法を使用します。この挿入は視覚的なギャップではなく、意味的なギャップであるため、ストーリーの伝え方が劇的に変化します。

そして、これは生成人工知能によって推進されるデジタル コンテンツ作成革命の始まりにすぎません。

‍安定した普及: オープンソース モデルのマイルストーン

2021 年の初め以来、テキストの説明から画像を生成できる人工知能が急速に開発されています。当時、OpenAI は DALL-E 1 と CLIP で素晴らしい結果を示しました。

2022 年、OpenAI は印象的な DALL-E 2 をリリースし、Google は Imagen と Parti を披露し、Midjourney はパブリック ベータを開始し、Craiyon はソーシャル メディアのあらゆる場所で AI 画像を作成しました。

そして最近、Stability AI はまったく新しいモデル Stable Diffusion をリリースしました。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

DALL-E 2 とは異なり、Stable Diffusion では OpenAI によって禁止されているさまざまな有名な人物を生成できます。

Midjourney、Pixelz.ai などのシステムでもそれを実行できますが、それらの生成の品質は安定した拡散に匹敵するものではありません。オープンソースです。

さて、私たちの旧友マスクを招待して、「ブラック・ウィドウ」(スカーレット・ヨハンソン)への秒速変身を披露してもらいます。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

どうやら、Stability AI は主任開発者として、複数の企業またはチームが Stable Diffusion のバリアントをトレーニングできるようになることを期待しているようです。

たとえば、あなたは大規模な GPU コンピューティング能力を持たない研究者だとします。心配しないでください。Stable Diffusion は、VRAM が 5.1 GB しかないグラフィック カードでもすぐに実行できるようになります。

別の例として、Apple M1 チップを搭載した MacBook のファンであれば、Stable Diffusion も実行できます。ただし、イメージの生成にかかる時間は数秒から数分に変化します。

マルチモーダル モデルは、大規模な言語モデルが以前にたどった道をたどっているようです。つまり、単一ベンダーから離れ、オープン ソースを通じて多数の代替手段を広く利用できるようにするということです。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

さらに、Runway は、安定した拡散に基づいてテキストからビデオへの編集を実装する方法をすでに研究しています。

一言で言えば、テニスコートをビーチに変えましょう;

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

稲妻や​​雷、風など関係なく、太陽の光;

#月であろうと火星であろうと;

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

##プレイを止められないテニス...

コンピューティングを使用して基本的な AI オープンソースを加速する

テスト段階の後、安定拡散は無料になり、コードとトレーニングされたモデルは次のようにリリースされます。オープンソース。ユーザーがシステムをテストするための Web インターフェイスを備えたホスト型バージョンも用意されます。

Stable Diffusion は、Stability AI、RunwayML、LMU Munich、EleutherAI、LAION の研究者間のコラボレーションの成果です。 EleutherAI は、オープンソース言語モデル GPT-J-6B や GPT-NeoX-20B などで有名です。

非営利団体 LAION (Open Network for Large-Scale Artificial Intelligence) は、トレーニング データ用にオープンソースの LAION 5B データセットを提供しました。チームは、このデータセットを、開発中に人間のフィードバックに基づいてフィルタリングしました。最終的な LAION-Aesthetics トレーニング データセットを作成するための初期テスト段階。

Runway の Patrick Esser と LMU ミュンヘンの Robin Rombach がプロジェクトを主導し、ハイデルベルク大学 CompVis グループでの研究がプロジェクトの基礎を築きました。ハイデルベルク大学では、広く使用されている VQGAN と潜在拡散を作成しました。これら 2 つのモデルと OpenAI および Google Brain の結果を組み合わせることで、安定した拡散が可能になります。

Stability AI は 2020 年に設立され、その投資家は数学者でコンピューター科学者の Emad Mostaque です。彼はさまざまなヘッジファンドでアナリストとして働いてきました。

Mostaque 氏は、Stability AI と私財を活用して、オープンソースの AI 研究コミュニティを育成したいと考えています。彼のスタートアップは以前、「LAION 5B」データセットの作成をサポートしました。 Stable Diffusion のモデルをトレーニングするために、Stability AI は 4,000 個の Nvidia A100 GPU を備えたサーバーを提供しました。

「当社の従業員 75 名以外に意思決定権を持つ者は誰もいません。億万長者、大規模なファンド、政府ではありません。当社は完全に独立しています。」とモスタク氏は述べました。 「私たちはコンピューティングを利用して、基本的な人工知能のオープンソースを加速する予定です。」

ネチズンは夢中になっています

冒頭の 2 つのビデオに加えて、一部のネチズンは、Stable Diffusion を使用して、老化アニメーションを生成しています。

彼は、制作中に長いプロンプトで単語を変更すると、短いプロンプトよりも微妙な効果があると述べました。さらに、10 歳、40 歳、80 歳などの具体的な年齢を述べるよりも、老人、中年、若者などの表現を使用するほうが効果的であることがよくあります。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

このほかにも、夢のある静止画がいろいろあります。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

「恋人」

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。「ライオン」

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

ライエンデッカーとマクセンス著「ダークソウル」

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

「サイバー京劇」

イースターエッグ

テスラの元人工知能および自動運転ビジョン ディレクターであるアンドレイ カルパシーの苦悩に満ちた精神の旅を感じてください。

このモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。

マスターが作成したビデオを見た後、カルパシーはとても興奮しました。

#一連の操作を通じて達成された結果は、幼稚園の小規模クラスであっても違和感がありません。 Desperate Karpathy さんは、自分のために作成してくれる「即戦力のエンジニア」を雇いたいと言いました。ついにカルパシーはついに正気に戻り、スチームパンクな人工ニューラルネットワークマシンとブルーベリーパスタという非常に満足のいく新しい作品を生み出しました。

以上がこのモデルは、元テスラ AI ディレクターのアンドレイ カルパシーに 3 日間夢中になりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。