ホームページ >テクノロジー周辺機器 >AI >OpenAI の新世代モデルはオープンソースの爆発です!清華大学卒業生の宋楊氏の作品、「拡散」よりも速くて強い
画像生成の分野は再び変化しているようです。
たった今、OpenAI は拡散モデルよりも高速で優れた一貫性モデルをオープンソース化しました:
敵対的トレーニングなしで高品質の画像を生成できます。
この大ヒットニュースが発表されるやいなや、学界はたちまち爆発しました。
論文自体は 3 月に控えめに発表されましたが、当時は OpenAI と詳細は実際には公開されません。
予想外なことに、今回はオープンソースが直接登場しました。一部のネチズンはすぐに効果のテストを開始し、約 64 枚の 256×256 画像を生成するのに約 3.5 秒しかかからないことを発見しました:
ゲーム オーバー!
これはこのネチズンによって生成された画像効果です。非常に良く見えます:
これもネチズンです冗談: 今回はついに OpenAI がオープンしました!
この論文の筆頭著者である OpenAI 科学者 Song Yang 氏は清華大学の卒業生であり、16 歳で清華大学の基礎数学と科学に入学したことは注目に値します。リーダーシッププログラムを通じてクラスを受講します。
今回はOpenAIがどのような研究をオープンソース化しているのかを見てみましょう。
画像生成AIとしてのConsistency Modelの最大の特徴は高速で優れていることです。
拡散モデルと比較すると、これには 2 つの主な利点があります:
まず、敵対的トレーニングを行わずに高品質の画像サンプルを直接生成できます。
第二に、数百、さらには数千の反復を必要とする拡散モデルと比較して、一貫性モデルでは、カラーリング、ノイズ除去、スーパー スコアリングなどのさまざまな画像タスクを処理するのに 1 つまたは 2 つのステップしか必要としません。 . はすべて、これらのタスクに関する明示的なトレーニングを必要とせず、いくつかの手順で実行できます。 (もちろん、少数サンプル学習を実行すると、生成効果はより良くなります)
それでは、整合性モデルはどのようにしてこの効果を達成するのでしょうか?
原理的な観点から見ると、整合性モデルの誕生は ODE (常微分方程式) 生成拡散モデルに関連しています。
図からわかるように、ODE はまず画像データを段階的にノイズに変換し、次に逆の解法を実行してノイズから画像を生成する方法を学習します。
このプロセスでは、著者らは生成モデリングのために ODE 軌道上の任意の点 (Xt、Xt、Xr など) をその原点 (X0 など) にマッピングしようとしました。
その後、このマッピングされたモデルは、出力がすべて同じ軌道上の同じ点にあるため、整合性モデルと名付けられました。
これに基づくアイデア一貫性モデルは、比較的高品質のイメージを生成するために長い反復を行う必要がなくなり、ワン ステップで生成できるようになりました。
次の図は、画像生成指標 FID に関する一貫性モデル (CD) と拡散モデル (PD) の比較です。
このうち、PDとはスタンフォード大学とGoogle Brainが昨年提案した最新の普及モデル手法である漸進蒸留(プログレッシブ蒸留)の略称で、CD(コンシステンシー蒸留)は一貫性蒸留法のことです。
ほとんどすべてのデータ セットで、一貫性モデルの画像生成効果が拡散モデルの画像生成効果より優れていることがわかります。唯一の例外は 256×256 の部屋データ セットです:
さらに、著者らは、拡散モデル、一貫性モデル、GAN、および他のさまざまなデータセット上の他のモデルも比較しました。
しかし、一部のネチズンは、オープンソース AI 一貫性モデルによって生成された画像がまだ小さすぎると述べています:
この画像がオープンソースであることは悲しいことです生成されるバージョンがまだ小さすぎるため、より大きな画像を生成するオープンソース バージョンが提供されれば、非常にエキサイティングです。
# 一部のネチズンは、OpenAI がまだトレーニングされていないのではないかと推測しています。しかし、おそらくトレーニング後にコード(手動の犬の頭)を取得できない可能性があります。
しかし、この作業の重要性について、TechCrunch は次のように述べています:
GPU が多数ある場合は、拡散モデルを使用して 1 ~ 2 分で 1,500 回以上反復し、確かに画像生成効果は非常に良いですね。
しかし、携帯電話上で、またはチャットでの会話中にリアルタイムで画像を生成したい場合は、明らかに拡散モデルが最良の選択ではありません。
一貫性モデルは、OpenAI の次の重要な動きです。
OpenAI が高解像度の画像生成 AI の波をオープンソース化することを願っています~
宋楊は論文の最初の著者です論文の著者であり、現在は OpenAI の研究員です。
#14 歳のとき、17 人の審査員の満場一致投票で「清華大学新 100 周年リーダーシップ プログラム」に選ばれました。翌年の大学入学試験では、連雲港市の理科でトップの成績を収め、清華大学に合格した。
2016 年、ソン ヤンは清華大学の基礎数学と物理学のクラスを卒業し、その後、スタンフォード大学に進学しました。 2022 年に、Song Yang はスタンフォード大学でコンピューター サイエンスの博士号を取得し、その後 OpenAI に入社しました。
博士課程在学中の最初の論文「確率微分方程式によるスコアベースの生成モデリング」も、ICLR 2021 Outstanding Paper Awardを受賞しました。
個人ホームページの情報によると、ソン・ヤン氏は2024年1月からカリフォルニア工科大学電子・計算数科学学科に助手として正式に加わる予定です。教授。
プロジェクトアドレス:
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f
論文アドレス:
https://www.php.cn/link/5f25fbe144e4a81a1b0080b6c1032778
参考リンク:
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874
以上がOpenAI の新世代モデルはオープンソースの爆発です!清華大学卒業生の宋楊氏の作品、「拡散」よりも速くて強いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。