ホームページ > 記事 > テクノロジー周辺機器 > 本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察
世界はまだ回復途上にありますが、特に人工知能の分野では、研究の熱狂的なペースが衰えていません。
さらに、今年は AI の倫理、偏見、ガバナンス、透明性が新たに重視されています。
人工知能、人間の脳と人工知能との関係についての理解は常に進化しており、近い将来、私たちの生活の質を向上させるこれらのアプリケーションが輝かしいものとなるでしょう。
有名ブロガーのルイ・ブシャール氏も、自身のブログで 2022 年に 32 (!) 件の AI テクノロジーのブレークスルーを数えています。
これらの驚くべき研究が何であるかを見てみましょう!
記事アドレス: https://www.louisbouchard.ai/2022-ai-recap/ #LaMA: フーリエ畳み込みに基づく解像度ロバストなラージ マスク修復
#あなたは、次のような状況を経験したことがあるはずです。あなたとあなたの友人が素晴らしい写真を撮りました。その結果、誰かがあなたの背後にいて、Moments または Xiaohongshu に送信したい写真を破壊していることがわかります。しかし今では、これはもう問題ではありません。フーリエ畳み込みに基づく、解像度に優れたラージ マスク修復手法により、ユーザーは画像から不要なコンテンツを簡単に削除できます。人もゴミ箱も簡単に消えてしまいます。
プロの PS デザイナーがポケットに入っているようなもので、ワンクリックで簡単にクリアできます。
一見簡単そうに見えますが、画像復元は多くの AI 研究者が長い間解決を必要としていた問題です。
紙のリンク: https://arxiv.org/abs/2109.07161
プロジェクト アドレス: https://github.com/saic-mdal/lama
##Colab デモ: https://colab.research .google .com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb
ビデオ説明: https://youtu.be /Ia79AvGzveQ
簡単な分析: https://www.louisbouchard.ai/lama/
STIT: GAN に基づくリアルビデオの顔編集
映画を観ていると、その映画に出演している俳優が自分よりもずっと若く見えるという経験をしたことがあるでしょう。
「ジェミニマン」のウィル・スミス
Before 、これには必要があります専門家は、これらの俳優が登場するシーンを手動で編集する作業に何百、あるいは何千時間も費やす必要があります。しかし、AI を使えば数分でそれが可能になります。
実際、笑顔を増やしたり、若く見えたり、老けて見えたりするテクノロジーは数多くありますが、これらはすべて人工知能ベースのアルゴリズムを使用して自動的に行われます。動画ではAIベースの顔操作と呼ばれており、2022年の最先端技術を表している。
紙のリンク: https://arxiv.org/abs/2201.08361
プロジェクトアドレス: https://github.com/rotemtzaban/STIT
ビデオ説明: https://youtu.be/mqItu9XoUgk
簡単な分析: https://www.louisbouchard.ai/stitch-it-in-time/
ニューラル レンダリングのリアル3D モデルは、物体、人物、またはシーンの写真を通じて空間内に生成できます。
このテクノロジーを使用すると、物体の写真を数枚必要とするだけで、機械にこれらの写真内の物体を理解させ、それが空間内でどのように見えるかをシミュレートすることができます。
人間にとって、現実世界を理解しているため、画像を通じて物体の物理的形状を理解することは簡単です。しかし、ピクセルしか認識できないマシンの場合、それはまったく別の課題になります。
生成されたモデルを新しいシナリオにどのように統合できますか?写真の照明条件や角度が異なると、結果として得られるモデルもそれに応じて変化する場合はどうなるでしょうか?これらは、Snapchat と南カリフォルニア大学がこの新しい研究で取り組む必要があった疑問です。
論文リンク: https://arxiv.org/abs/2201.02533
プロジェクト アドレス: https://github.com/snap-research/NeROIC
#動画説明: https://youtu.be / 88Pl9zD1Z78
簡単な分析: https://www.louisbouchard.ai/neroic/
SpeechPainter: テキスト条件付き音声修復画像の場合、機械学習ベースの修復テクノロジーは、コンテンツを削除するだけでなく、背景情報に基づいて画像の欠落部分を埋めることもできます。
ビデオ復元の課題は、フレーム間の一貫性を維持するだけでなく、誤ったアーティファクトの生成を回避することです。同時に、ビデオから人物を「追い出す」ことに成功したら、その人物の声も削除する必要があります。
この目的を達成するために、Google の研究者は、文法や発音を修正し、動画内の背景ノイズを除去することもできる新しい音声修復方法を提案しました。
論文リンク: https://arxiv.org/abs/2202.07273
ビデオ説明: https://youtu.be/zIIc4bRf5Hg
簡単な分析: https://www.louisbouchard.ai/speech-inpainting-with-ai/
GFP-GAN: 生成顔事前分布を使用して現実世界のブラインドフェイス復元を実現古い写真を集めたものはありますか?画質がぼやけていませんか?心配しないでください。ブラインドフェイス修復を使えば、あなたの思い出は永遠に残ります。
この新しい無料の AI モデルは、古い写真のほとんどを瞬時に修復できます。復元前の写真の品質が非常に低い場合でも、非常にうまく機能します。これは以前は非常に困難なことでした。
さらにすばらしいのは、好きな方法で試してみることができることです。彼らはコードをオープンソース化し、誰でも試せるデモとオンライン アプリケーションを作成しました。このテクノロジーには驚かれると思います。
紙のリンク: https://arxiv.org/abs/2101.04061
プロジェクトアドレス: https://github.com/TencentARC/GFPGAN
Colab デモ: https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo
オンライン アプリケーション: https: //huggingface.co/spaces/akhaliq/GFPGAN
ビデオ説明: https://youtu.be/nLDVtzcSeqM
簡単な分析: https://www.louisbouchard.ai/gfp-gan/
4D-Net: マルチモーダル アライメントの学習
自動車会社が使用している LiDAR センサーやその他の奇妙なカメラについて聞いたことがあるかもしれません。しかし、彼らはどのように働き、世界をどのように見ているのでしょうか、そして彼らは私たちと比べて具体的に何が違うのでしょうか?
紙のリンク: https://arxiv.org/abs/2109.01066
世界を理解するためにカメラのみを使用する Tesla とは異なり、Waymo などのほとんどの自動運転車メーカーは通常のカメラと 3D LiDAR センサーを使用しています。
通常のカメラのように画像を生成するのではなく、RGB センシング情報を使用して 3D 点群を生成し、物体間の距離を測定し、物体に投影するパルス レーザー光を計算します。 . 伝播時間。
それにもかかわらず、この情報を効果的に組み合わせて車両に理解させるにはどうすればよいでしょうか?車両は最終的に何を目にするのでしょうか?自動運転は十分に安全ですか? Waymo と Google の新しい研究論文がこれらの謎に答えます。
#ビデオ説明: https://youtu.be/0nJMnw1Ldks
##簡単な分析: https: / /www.louisbouchard.ai/waymo-lidar/Instant NeRF: マルチ解像度ハッシュ エンコーディングに基づくインスタント ニューラル プリミティブ
写真シミュレートを渡す方法世界はどのように見えますか?
AI モデルを使用すると、キャプチャした画像を高品質の 3D モデルに変換できます。この困難な課題により、研究者は 2D 画像を使用して、物体や人が 3 次元の世界でどのように見えるかを作成できます。
ハッシュ エンコードされたニューラル プリミティブ (グラフィック プリミティブ) を通じて、Nvidia は NeRF を 5 秒でトレーニングし、より良い結果を達成できます。 2 年足らずの研究で、NeRF のトレーニング速度は 1,000 倍以上増加しました。
紙のリンク: https://arxiv.org/abs/2201.05989
プロジェクトアドレス: https://github.com/NVlabs/instant-ngp
##ビデオ説明: https://youtu.be/UHQZBQOVAIU
簡単な分析: https://www.louisbouchard.ai/nvidia-photos-into-3d- scenes/
DALL・E 2: CLIP 機能に基づくテキストから画像への生成モデル昨年、OpenAI はテキストから画像への生成モデルをリリースしました。ダル・イー。 DALL・E 2 のアップグレード版が再び登場しました。
DALL・E 2 はテキストからリアルな画像を生成するだけでなく、その出力の解像度は 4 倍です。
ただし、パフォーマンスの向上は OpenAI を満足させるのに十分ではないと思われるため、DALL・E 2 にイメージ修復という新しいスキルを学習させました。
つまり、DALL・E 2 で画像を編集したり、背景にフラミンゴを追加するなど、必要な新しい要素を追加したりできます。
紙のリンク: https://arxiv.org/abs/2204.06125
ビデオ説明: https://youtu.be/rdGVbPI42sA
#簡単な分析: https://www.louisbouchard.ai/openais - new-model-dall-e-2-is-amazing/MyStyle: パーソナライズされた世代以前のモデル
Google とテルアビブ大学が非常に強力な DeepFake を提案テクノロジー。これを使えば、ほぼ何でもできます。人物の写真を何百枚も撮り、その画像をエンコードし、修正、編集、または好みの外観を作成するだけです。
特に結果を見ると、驚くべきことであり、恐ろしいことでもあります。
紙のリンク: https://arxiv.org/abs/2203.17272
プロジェクトアドレス: https://mystyle-personalized-prior.github.io/
#ビデオ説明: https://youtu.be /BNWAEvFfFvQ
簡単な分析: https://www.louisbouchard.ai/mystyle/
OPT: 開く事前トレーニング済みの Transformer 言語モデル
GPT-3 が非常に強力である理由は、そのアーキテクチャとサイズです。これには、人間の脳のニューロンの数の 2 倍である 1,750 億個のパラメーターがあります。このような大規模なニューラル ネットワークにより、モデルはインターネットのほぼ全体を学習し、私たちがテキストをどのように書き、交換し、理解するかを理解できるようになりました。
人々が GPT-3 の強力な機能に驚嘆していたまさにそのとき、Meta はオープンソース コミュニティに向けて大きな一歩を踏み出しました。彼らは同様に強力なモデルをリリースしましたが、現在は完全にオープンソースです。
このモデルには 1,000 億を超えるレベルのパラメーターがあるだけでなく、GPT-3 と比較して、OPT-175B はよりオープンでアクセスしやすいものになっています。
紙のリンク: https://arxiv.org/abs/2205.01068
プロジェクトアドレス: https://github.com/facebookresearch/metaseq
##ビデオリンク: https: //youtu.be/Ejg0OunCi9U
簡単な分析: https://www.louisbouchard.ai/opt-meta/
BlobGAN: 空間的に離散的なシーン表現シーンを記述する方法について、Adobe 研究チームは新しい手法 BlobGAN を提供しました。
BlobGAN は、「ブロブ」を使用してシーン内のオブジェクトを記述します。研究者はブロブを移動して、ブロブを大きくしたり小さくしたり、削除したりすることもできます。これにより、画像内でブロブが表すオブジェクトに同じ効果が生じます。
著者らが結果を共有しているように、BLOB を複製することでデータセット内に新しい画像を作成できます。
BlobGAN のコードがオープンソース化されましたので、興味のある方は急いで試してみてください。
紙のリンク: https://arxiv.org/abs/2205.02837
プロジェクトのアドレス: https://github.com/dave-epstein/blobgan
Colab デモ: https://colab.research.google.com/drive /1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu
##ビデオ説明: https://youtu.be/mnEzjpiA_4E
簡単な分析: https://www.louisbouchard.ai/blobgan/
ガトー: ジェネラリスト エージェントDeepMind は、単一の「ユニバーサル」エージェント Gato を構築しました。 Atari ゲームをプレイしたり、字幕画像を作成したり、人々とチャットしたり、ロボット アームを制御したりできます。
さらに衝撃的なのは、同じウェイトを使用して 1 回トレーニングするだけで、すべてのタスクを完了できることです。
Gato はマルチモーダル エージェントです。つまり、画像のキャプションを作成することも、質問に答えるチャットボットとして機能することもできます。
GPT-3 もチャットできますが、Gato がそれ以上のことができることは明らかです。結局のところ、チャットできる AI はよくありますが、一緒にゲームをプレイできる AI は多くありません。
紙のリンク: https://arxiv.org/abs/2205.06175
#ビデオ説明: https://youtu.be/xZKSWNv6Esc##簡単な分析: https:// www.louisbouchard.ai/deepmind-gato/
Imagen: 深い言語理解によるテキストから画像への拡散モデル
DALL · E と思われる場合2 は素晴らしいので、Google Brain のこの新しいモデル Imagen で何ができるかを見てみましょう。DALL・E は素晴らしいのですが、生成される画像は現実感に欠けることが多く、Google チームが開発した Imagen はこの問題を解決することを目指しています。
テキストと画像のモデルを比較するベンチマークによると、Imagen は大規模な言語モデルのテキスト埋め込みによるテキストと画像の合成において顕著な結果を達成しました。結果として得られる画像は、想像力豊かでありながら現実的です。
紙のリンク: https://arxiv.org/abs/2205.11487
プロジェクトアドレス: https://imagen.research.google/
##ビデオ説明: https :/ /youtu.be/qhtYPhPWCsI
簡単な分析: https://www.louisbouchard.ai/google-brain-imagen/
DALL・E Mini##Xiao Zha の一連の怖い写真は、Twitter 上で一時期人気になりました。 DALL・E miniが制作したサンのお得な作品セットです。
プロジェクト アドレス: https://github.com/bolisdayma/dalle-mini
オンライン エクスペリエンス: https:// hackgingface.co/spaces/dalle-mini/dalle-mini
ビデオ説明: https://youtu.be/K3bZXXjW788
簡単な分析: https://www.louisbouchard.ai/dalle-mini/
Meta AI がリリースしたこの NLLB-200 モデルは、「No Language Left Behind」(言語を取り残さない) に由来するモデルネーミングコンセプトで、200 以上の言語で任意の翻訳を実現できます。
研究のハイライトは、研究者らがほとんどのリソースの少ない言語トレーニングを数桁改善し、200 言語の翻訳で SOTA の結果を達成したことです。
論文リンク: https://research.facebook.com/publications/no-lang-left-behind/
# プロジェクトアドレス: https://github.com/facebookresearch/fairseq/tree/nllb
#オンライン体験: https://nllb.metademolab.com/
##ビデオ説明: https://youtu.be /2G4NeG17Eis
簡単な分析: https://www.louisbouchard.ai/no- language-left-behind/ デュアルシャッター光学式振動感知システム
音も見えるのですか?これにより、楽器の分離やノイズの除去など、さまざまなニーズを実現できます。
論文リンク: https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf
プロジェクトアドレス: https://imaging.cs.cmu.edu/vibration/
##ビデオ説明: https://youtu.be/n1M8ZVspJcs
簡単な分析: https://www.louisbouchard .ai/cvpr-2022-best-paper/
Make-A-Scene: 人間の事前予測を使用したシーンベースのテキストから画像への生成
Make-A-Scene は単なる「もう一つの DALL・E」ではありません。
DALL・E はテキスト プロンプトに基づいてランダムな画像を生成できますが、これは非常に優れていますが、生成された結果に対するユーザーの制御も制限されます。
Meta の目標は、このテキストから画像へのトレンドと以前のスケッチから画像へのモデルを組み合わせて、クリエイティブな表現を促進し、「メイク・ア・シーン」を生み出すことです: テキスト Aスケッチ条件付き画像生成間の素晴らしいブレンド。
紙のリンク: https://arxiv.org/abs/2203.13131
ビデオ説明: https://youtu.be/K3bZXXjW788
簡単な分析: https://www.louisbouchard。 ai/make-a-scene/
BANMo: 任意のビデオからターゲット 3D アニメーション モデルを構築する
Meta の調査に基づいて、次のことが必要です。猫や犬の複数の動画をアップロードするなど、変形可能なオブジェクトをキャプチャした動画がある場合、BANMo は数千の画像からの 2D 手がかりを標準空間に統合することにより、編集可能なアニメーション 3D モデルを再構築できます。また、事前定義された形状テンプレートは必要ありません。
紙のリンク: https://arxiv.org/abs/2112.12761
プロジェクトアドレス: https://github.com/facebookresearch/banmo
##ビデオ説明: https: //youtu.be/jDTy-liFoCQ簡単な分析: https://www.louisbouchard.ai/banmo/
潜在拡散モデルを使用した高解像度画像合成
今年人気の画像生成モデル DALL・E、Imagen、そして強力な Stable Diffusion の強力な画像生成モデルにはどのような機能があるのか一般?高い計算コストと膨大なトレーニング時間を除けば、それらはすべて同じ拡散メカニズムに基づいています。
拡散モデルは最近、DALL・E を使用したテキストから画像への変換や、画像の修復、スタイル転送、画像の超解像度。
紙のリンク: https://arxiv.org/abs/2112.10752
プロジェクトアドレス: https://github.com/CompVis/latent-diffusion
ビデオ説明: https://youtu.be / RGBNdD3Wn-g
##簡単な分析: https://www.louisbouchard.ai/latent-diffusion-models/
PSG: シーンベースの画像生成モデルAI は画像内のオブジェクトを正確に識別するのに役立ちますが、オブジェクトと環境の関係を理解するのはそれほど簡単ではありません。
この目的を達成するために、Nanyang Polytechnic の研究者は、パノラマ セグメンテーションに基づくパノラマ シーン グラフ生成 (PSG) タスクを提案しました。
従来の検出フレームベースのシーングラフ生成と比較して、PSG タスクでは、画像内のすべての関係 (オブジェクトとオブジェクト間の関係、オブジェクトとオブジェクト間の関係を含む) の包括的な出力が必要です。背景、背景と背景の関係など)、正確なセグメンテーション ブロックを使用してオブジェクトを見つけます。
紙のリンク: https://arxiv.org/abs/2207.11247
プロジェクトアドレス: https://psgdataset.org/
#オンライン申請: https://huggingface.co/spaces/ECCV2022/ PSG
ビデオ説明: https://youtu.be/cSsE_H_0Cr8
ショートストーリー分析: https://www.louisbouchard.ai/psg/テキスト反転を使用して、テキストから画像へのパーソナライズされた生成を実現します
今年の大手メーカーの画像生成モデルは、海を渡る8人の仙人がそれぞれの不思議な力を発揮しているようなものだと言えますが、どのようにモデルに特定のスタイルの画像作品を生成させるのでしょうか?
テルアビブ大学と NVIDIA の学者は協力して、必要な画像を DIY できるパーソナライズされた画像生成モデルを立ち上げました。
紙のリンク: https://arxiv.org/abs/2208.01618
プロジェクトアドレス: https://textual-inversion.github.io/
#ビデオ説明: https://youtu.be/f3oXa7_SYek
簡単な分析: https://www.louisbouchard.ai/imageworthoneword/ #一般的なビデオ認識用の言語画像事前トレーニング モデル
ビジュアル テキスト モデルの学習は間違いなく大きな成功を収めましたが、この新しい言語画像を事前トレーニングする方法は、方法の拡張です。ビデオ領域については未解決の問題が残っています。
Microsoft と中国科学院の学者らは、新しいモデルを最初から事前トレーニングするのではなく、事前トレーニングされた言語画像モデルをビデオ認識に直接適応させるシンプルで効果的な方法を提案しました。 。
論文リンク: https://arxiv.org/abs/2208.02816
プロジェクト アドレス: https://github.com/microsoft/VideoX/tree/master/X-CLIP
ビデオ説明: https://youtu.be/seb4lmVPEe8
#簡単な分析: https://www.louisbouchard.ai/general-video-recognition/
Make- A-Video: ワンクリック テキスト生成ビデオ モデル
画家は心ゆくまでキャンバスに絵を描きます。これほど鮮明で滑らかな画像では、ビデオのすべてのフレームが生成されていると考えられますか? AIによって?MetaAIが立ち上げたMake-A-Videoは、単語を入力するだけで数秒でさまざまなスタイルの動画を生成できる「動画版DALL・E」ではありません。過言。
紙のリンク: https://arxiv.org/abs/2209.14792
#ビデオ説明: https://youtu.be/MWwESVyHWto
##簡単な分析: https:// www.louisbouchard.ai/make-a-video/
Whisper: 大規模で弱く教師ありの音声認識モデルこれについて考えたことはありますか?自分では理解できない言語であっても、ビデオ内の音声をすばやく翻訳できる翻訳ソフトウェアはありますか?
OpenAI のオープンソース Whisper はまさにそれを実現します。
Whisper は、680,000 時間以上の多言語データでトレーニングされました。騒がしい背景でも多言語音声を認識し、テキストに変換できます。さらに、専門用語の翻訳も可能です。
紙のリンク: https://arxiv.org/abs/2212.04356
プロジェクトアドレス: https://github.com/openai/whisper#
ビデオ説明: https://youtu.be/uFOkMme19Zs 簡単な分析:https://www.louisbouchard.ai/whisper/ テキストは画像、ビデオ、そして 3D モデルがあります ~ Google が立ち上げた DreamFusion は、事前にトレーニングされた 2D テキストを画像拡散モデルに使用することで、ワンクリックで 3D モデルを生成できます。拡散モデルは数十億の画像でトレーニングされています。テキストペア テキストから 3D モデルへの合成における最新のブレークスルーを推進します。 紙のリンク: https://arxiv.org/abs/2209.14988 ビデオ説明: https://youtu.be/epuU0VRIcjE ## 簡単な分析: https:// www.louisbouchard.ai/dreamfusion/Imagic: 拡散モデルに基づく実画像編集手法 Google、テクニオン・イスラエル工科大学、ワイツマン科学研究所の研究者らは、拡散モデルに基づく実画像編集手法である Imagic を導入しました。これは、次の方法でのみ実現できます。実際の写真のテキスト PS。 たとえば、人物の特徴を残したままポーズや構図を変更したり、立っている犬を座らせたり、鳥を羽ばたかせたりしたいです。
紙のリンク: https://arxiv.org/abs/2210.09276 #ビデオ説明: https://youtu.be/gbpPQ5kVJhM 簡単な分析: https://www.louisbouchard.ai/imagic/ eDiffi: 高、高-高品質な文字画像合成モデル これは、より高品質な画像をより正確に生成できる NVIDIA の eDiffi で、さらにブラシ テンプレートを追加することで、作品にさらなる創造性と柔軟性を加えることができます。
論文リンク: https://arxiv.org/abs/2211.01324 プロジェクトアドレス:https://deepimagination.cc/eDiff-I/ ##動画説明:https ://youtu.be/grwp-ht_ixo 簡単な分析: https://www.louisbouchard.ai/ediffi/ ##写真を撮って、それをドアのように開くことを考えたことはありますか?写真の中に飛んでいくのはどうでしょうか? ? Google とコーネル大学の学者は、1 枚の画像から自然の風景を無制限に生成できる InfiniteNature-Zero を使用して、この想像力を現実にしました。 論文リンク: https://arxiv.org/abs/2207.11148 プロジェクトアドレス: https://infinite-nature.github.io/ #ビデオ説明: https://youtu.be/FQzGhukV-l0 簡単な分析: https://www.louisbouchard.ai/infinitenature-zeroGalaxy: 科学のための大規模言語モデル モデルは、政府の白書、ニュースの解説、Wikipedia のページやコードを書くことができ、引用の仕方や数式の書き方も知っています。これは人工知能と科学にとって大きな問題です。
紙のリンク: https://arxiv.org/abs/2211.09085 ## 簡単な分析: https:// www.louisbouchard.ai/gaoptica/ RAD-NeRF: オーディオ空間分解に基づくリアルタイム ポートレート合成モデル RAD-NeRF の登場により、この問題は解決され、ビデオに登場する発言者のポートレートをリアルタイムに合成でき、カスタム アバターにも対応します。
紙のリンク: https://arxiv.org/abs/2211.12368 プロジェクトアドレス: https://me.kiui.moe/radnerf/ #ビデオ説明: https://youtu.be/JUqnLN6Q4B0 簡単な分析: https://www.louisbouchard.ai/rad-nerf/ ChatGPT: 言語対話用に最適化されたモデル2022 年の AI の大ヒット作品は、ChatGPT なしではどうやって実現できるでしょうか? ChatGPT はインターネット全体で人気があり、ポルノ記事やタイプ コードなどを書くためにネチズンによって開発されました。応用の普遍的なモデル、まだ知らない方はぜひ見に来てください! ビデオ説明: https://youtu.be/AsFgn8vU-tQ 簡単な分析: https://www.louisbouchard.ai/chatgpt/#本番環境で直接使用できるビデオ顔のリエイジング 現在のコンピュータービジョンモデルは、顔の年齢やスタイルの転写などを生成できますが、これは見た目がカッコいいだけで、実際のアプリケーションではほとんど効果がありません。既存の技術では、通常、顔に問題があります。特徴などの問題があります。後続のビデオ フレームでは損失、低解像度、不安定な結果が生じるため、多くの場合、手動による二次編集が必要になります。 最近、ディズニーは、制作用にビデオ画像内の顔を再老化させるための最初の実用的で完全に自動化された方法である FRAN (Face Re-Aging Network) をリリースしましたが、この技術の終了を正式に発表しました。映画における俳優の年齢の視覚効果を変えるためにメイクアップアーティストに依存すること。 論文リンク: https://dl.acm.org/doi/pdf/10.1145/3550454.3555520 #プロジェクトアドレス: https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-Effects/ ##簡単な分析: https://www.louisbouchard.ai/disney-re-age/DreamFusion: 2D 画像を使用して 3D モデルを生成
以上が本当に重要な研究です! 32 の論文が 2022 年の AI ホットスポットを徹底的に考察の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。