本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察-AI-php.cn

ホームページ

テクノロジー周辺機器

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

王林

Apr 13, 2023 pm 07:34 PM

世界はまだ回復途上にありますが、特に人工知能の分野では、研究の熱狂的なペースが衰えていません。

さらに、今年は AI の倫理、偏見、ガバナンス、透明性が新たに重視されています。

人工知能、人間の脳と人工知能との関係についての理解は常に進化しており、近い将来、私たちの生活の質を向上させるこれらのアプリケーションが輝かしいものとなるでしょう。

有名ブロガーのルイ・ブシャール氏も、自身のブログで 2022 年に 32 (!) 件の AI テクノロジーのブレークスルーを数えています。

これらの驚くべき研究が何であるかを見てみましょう!

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

記事アドレス: https://www.louisbouchard.ai/2022-ai-recap/ #LaMA: フーリエ畳み込みに基づく解像度ロバストなラージマスク修復

#あなたは、次のような状況を経験したことがあるはずです。あなたとあなたの友人が素晴らしい写真を撮りました。その結果、誰かがあなたの背後にいて、Moments または Xiaohongshu に送信したい写真を破壊していることがわかります。しかし今では、これはもう問題ではありません。

フーリエ畳み込みに基づく、解像度に優れたラージマスク修復手法により、ユーザーは画像から不要なコンテンツを簡単に削除できます。人もゴミ箱も簡単に消えてしまいます。

プロの PS デザイナーがポケットに入っているようなもので、ワンクリックで簡単にクリアできます。

一見簡単そうに見えますが、画像復元は多くの AI 研究者が長い間解決を必要としていた問題です。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2109.07161

プロジェクトアドレス: https://github.com/saic-mdal/lama

##Colab デモ: https://colab.research .google .com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb

ビデオ説明: https://youtu.be /Ia79AvGzveQ

簡単な分析: https://www.louisbouchard.ai/lama/

STIT: GAN に基づくリアルビデオの顔編集

映画を観ていると、その映画に出演している俳優が自分よりもずっと若く見えるという経験をしたことがあるでしょう。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察「ジェミニマン」のウィル・スミス

Before 、これには必要があります専門家は、これらの俳優が登場するシーンを手動で編集する作業に何百、あるいは何千時間も費やす必要があります。しかし、AI を使えば数分でそれが可能になります。

実際、笑顔を増やしたり、若く見えたり、老けて見えたりするテクノロジーは数多くありますが、これらはすべて人工知能ベースのアルゴリズムを使用して自動的に行われます。動画ではAIベースの顔操作と呼ばれており、2022年の最先端技術を表している。

紙のリンク: https://arxiv.org/abs/2201.08361 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/rotemtzaban/STIT

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/mqItu9XoUgk

簡単な分析: https://www.louisbouchard.ai/stitch-it-in-time/

NeROIC: オンラインギャラリーを使用したニューラルレンダリング

ニューラルレンダリングのリアル3D モデルは、物体、人物、またはシーンの写真を通じて空間内に生成できます。

このテクノロジーを使用すると、物体の写真を数枚必要とするだけで、機械にこれらの写真内の物体を理解させ、それが空間内でどのように見えるかをシミュレートすることができます。

人間にとって、現実世界を理解しているため、画像を通じて物体の物理的形状を理解することは簡単です。しかし、ピクセルしか認識できないマシンの場合、それはまったく別の課題になります。

生成されたモデルを新しいシナリオにどのように統合できますか?写真の照明条件や角度が異なると、結果として得られるモデルもそれに応じて変化する場合はどうなるでしょうか?これらは、Snapchat と南カリフォルニア大学がこの新しい研究で取り組む必要があった疑問です。

論文リンク: https://arxiv.org/abs/2201.02533

プロジェクトアドレス: https://github.com/snap-research/NeROIC

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#動画説明: https://youtu.be / 88Pl9zD1Z78

簡単な分析: https://www.louisbouchard.ai/neroic/

SpeechPainter: テキスト条件付き音声修復

画像の場合、機械学習ベースの修復テクノロジーは、コンテンツを削除するだけでなく、背景情報に基づいて画像の欠落部分を埋めることもできます。

ビデオ復元の課題は、フレーム間の一貫性を維持するだけでなく、誤ったアーティファクトの生成を回避することです。同時に、ビデオから人物を「追い出す」ことに成功したら、その人物の声も削除する必要があります。

この目的を達成するために、Google の研究者は、文法や発音を修正し、動画内の背景ノイズを除去することもできる新しい音声修復方法を提案しました。

論文リンク: https://arxiv.org/abs/2202.07273

ビデオ説明: https://youtu.be/zIIc4bRf5Hg

簡単な分析: https://www.louisbouchard.ai/speech-inpainting-with-ai/

GFP-GAN: 生成顔事前分布を使用して現実世界のブラインドフェイス復元を実現

古い写真を集めたものはありますか?画質がぼやけていませんか？心配しないでください。ブラインドフェイス修復を使えば、あなたの思い出は永遠に残ります。

この新しい無料の AI モデルは、古い写真のほとんどを瞬時に修復できます。復元前の写真の品質が非常に低い場合でも、非常にうまく機能します。これは以前は非常に困難なことでした。

さらにすばらしいのは、好きな方法で試してみることができることです。彼らはコードをオープンソース化し、誰でも試せるデモとオンラインアプリケーションを作成しました。このテクノロジーには驚かれると思います。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2101.04061

プロジェクトアドレス: https://github.com/TencentARC/GFPGAN

Colab デモ: https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo

オンラインアプリケーション: https: //huggingface.co/spaces/akhaliq/GFPGAN

ビデオ説明: https://youtu.be/nLDVtzcSeqM

簡単な分析: https://www.louisbouchard.ai/gfp-gan/

4D-Net: マルチモーダルアライメントの学習

自動運転車はどのようにして「6 つの方向を見る」ことができるのでしょうか?

自動車会社が使用している LiDAR センサーやその他の奇妙なカメラについて聞いたことがあるかもしれません。しかし、彼らはどのように働き、世界をどのように見ているのでしょうか、そして彼らは私たちと比べて具体的に何が違うのでしょうか?

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2109.01066

世界を理解するためにカメラのみを使用する Tesla とは異なり、Waymo などのほとんどの自動運転車メーカーは通常のカメラと 3D LiDAR センサーを使用しています。

通常のカメラのように画像を生成するのではなく、RGB センシング情報を使用して 3D 点群を生成し、物体間の距離を測定し、物体に投影するパルスレーザー光を計算します。 . 伝播時間。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

それにもかかわらず、この情報を効果的に組み合わせて車両に理解させるにはどうすればよいでしょうか?車両は最終的に何を目にするのでしょうか?自動運転は十分に安全ですか? Waymo と Google の新しい研究論文がこれらの謎に答えます。

#ビデオ説明: https://youtu.be/0nJMnw1Ldks

##簡単な分析: https: / /www.louisbouchard.ai/waymo-lidar/

Instant NeRF: マルチ解像度ハッシュエンコーディングに基づくインスタントニューラルプリミティブ

写真シミュレートを渡す方法世界はどのように見えますか？

AI モデルを使用すると、キャプチャした画像を高品質の 3D モデルに変換できます。この困難な課題により、研究者は 2D 画像を使用して、物体や人が 3 次元の世界でどのように見えるかを作成できます。

ハッシュエンコードされたニューラルプリミティブ (グラフィックプリミティブ) を通じて、Nvidia は NeRF を 5 秒でトレーニングし、より良い結果を達成できます。 2 年足らずの研究で、NeRF のトレーニング速度は 1,000 倍以上増加しました。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察紙のリンク: https://arxiv.org/abs/2201.05989

プロジェクトアドレス: https://github.com/NVlabs/instant-ngp

##ビデオ説明: https://youtu.be/UHQZBQOVAIU 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/nvidia-photos-into-3d- scenes/

DALL・E 2: CLIP 機能に基づくテキストから画像への生成モデル昨年、OpenAI はテキストから画像への生成モデルをリリースしました。ダル・イー。 DALL・E 2 のアップグレード版が再び登場しました。

DALL・E 2 はテキストからリアルな画像を生成するだけでなく、その出力の解像度は 4 倍です。

ただし、パフォーマンスの向上は OpenAI を満足させるのに十分ではないと思われるため、DALL・E 2 にイメージ修復という新しいスキルを学習させました。

つまり、DALL・E 2 で画像を編集したり、背景にフラミンゴを追加するなど、必要な新しい要素を追加したりできます。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2204.06125

ビデオ説明: https://youtu.be/rdGVbPI42sA

#簡単な分析: https://www.louisbouchard.ai/openais - new-model-dall-e-2-is-amazing/MyStyle: パーソナライズされた世代以前のモデル

Google とテルアビブ大学が非常に強力な DeepFake を提案テクノロジー。これを使えば、ほぼ何でもできます。

人物の写真を何百枚も撮り、その画像をエンコードし、修正、編集、または好みの外観を作成するだけです。

特に結果を見ると、驚くべきことであり、恐ろしいことでもあります。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2203.17272

プロジェクトアドレス: https://mystyle-personalized-prior.github.io/

#ビデオ説明: https://youtu.be /BNWAEvFfFvQ

簡単な分析: https://www.louisbouchard.ai/mystyle/

OPT: 開く事前トレーニング済みの Transformer 言語モデル

GPT-3 が非常に強力である理由は、そのアーキテクチャとサイズです。

これには、人間の脳のニューロンの数の 2 倍である 1,750 億個のパラメーターがあります。このような大規模なニューラルネットワークにより、モデルはインターネットのほぼ全体を学習し、私たちがテキストをどのように書き、交換し、理解するかを理解できるようになりました。

人々が GPT-3 の強力な機能に驚嘆していたまさにそのとき、Meta はオープンソースコミュニティに向けて大きな一歩を踏み出しました。彼らは同様に強力なモデルをリリースしましたが、現在は完全にオープンソースです。

このモデルには 1,000 億を超えるレベルのパラメーターがあるだけでなく、GPT-3 と比較して、OPT-175B はよりオープンでアクセスしやすいものになっています。

紙のリンク: https://arxiv.org/abs/2205.01068 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/facebookresearch/metaseq

##ビデオリンク: https: //youtu.be/Ejg0OunCi9U

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/opt-meta/

BlobGAN: 空間的に離散的なシーン表現

シーンを記述する方法について、Adobe 研究チームは新しい手法 BlobGAN を提供しました。

BlobGAN は、「ブロブ」を使用してシーン内のオブジェクトを記述します。研究者はブロブを移動して、ブロブを大きくしたり小さくしたり、削除したりすることもできます。これにより、画像内でブロブが表すオブジェクトに同じ効果が生じます。

著者らが結果を共有しているように、BLOB を複製することでデータセット内に新しい画像を作成できます。

BlobGAN のコードがオープンソース化されましたので、興味のある方は急いで試してみてください。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2205.02837

プロジェクトのアドレス: https://github.com/dave-epstein/blobgan

Colab デモ: https://colab.research.google.com/drive /1clvh28Yds5CvKsYYENGLS3iIIrlZK4xO?usp=sharing#scrollTo=0QuVIyVplOKu

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/mnEzjpiA_4E

簡単な分析: https://www.louisbouchard.ai/blobgan/

ガトー: ジェネラリストエージェント

DeepMind は、単一の「ユニバーサル」エージェント Gato を構築しました。 Atari ゲームをプレイしたり、字幕画像を作成したり、人々とチャットしたり、ロボットアームを制御したりできます。

さらに衝撃的なのは、同じウェイトを使用して 1 回トレーニングするだけで、すべてのタスクを完了できることです。

Gato はマルチモーダルエージェントです。つまり、画像のキャプションを作成することも、質問に答えるチャットボットとして機能することもできます。

GPT-3 もチャットできますが、Gato がそれ以上のことができることは明らかです。結局のところ、チャットできる AI はよくありますが、一緒にゲームをプレイできる AI は多くありません。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2205.06175

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/xZKSWNv6Esc

##簡単な分析: https:// www.louisbouchard.ai/deepmind-gato/

Imagen: 深い言語理解によるテキストから画像への拡散モデル

DALL · E と思われる場合2 は素晴らしいので、Google Brain のこの新しいモデル Imagen で何ができるかを見てみましょう。

DALL・E は素晴らしいのですが、生成される画像は現実感に欠けることが多く、Google チームが開発した Imagen はこの問題を解決することを目指しています。

テキストと画像のモデルを比較するベンチマークによると、Imagen は大規模な言語モデルのテキスト埋め込みによるテキストと画像の合成において顕著な結果を達成しました。結果として得られる画像は、想像力豊かでありながら現実的です。

紙のリンク: https://arxiv.org/abs/2205.11487 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://imagen.research.google/

##ビデオ説明: https :/ /youtu.be/qhtYPhPWCsI

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/google-brain-imagen/

DALL・E Mini##Xiao Zha の一連の怖い写真は、Twitter 上で一時期人気になりました。 DALL・E miniが制作したサンのお得な作品セットです。

DALL・E ファミリの「若者版」として、DALL・E mini は無料でオープンソースです。コードは残っていますが、次に魔改造されるのは誰でしょうか？

プロジェクトアドレス: https://github.com/bolisdayma/dalle-mini

オンラインエクスペリエンス: https:// hackgingface.co/spaces/dalle-mini/dalle-mini

ビデオ説明: https://youtu.be/K3bZXXjW788

簡単な分析: https://www.louisbouchard.ai/dalle-mini/

NLLB: 言語は取り残されません

Meta AI がリリースしたこの NLLB-200 モデルは、「No Language Left Behind」(言語を取り残さない) に由来するモデルネーミングコンセプトで、200 以上の言語で任意の翻訳を実現できます。

研究のハイライトは、研究者らがほとんどのリソースの少ない言語トレーニングを数桁改善し、200 言語の翻訳で SOTA の結果を達成したことです。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://research.facebook.com/publications/no-lang-left-behind/

# プロジェクトアドレス: https://github.com/facebookresearch/fairseq/tree/nllb

#オンライン体験: https://nllb.metademolab.com/

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be /2G4NeG17Eis

簡単な分析: https://www.louisbouchard.ai/no- language-left-behind/ デュアルシャッター光学式振動感知システム

音も見えるのですか?

CVPR 2022 最優秀論文栄誉賞を受賞したこの研究は、「低速」カメラ (130FPS) を使用して複数のシーンソースを同時に検出する新しいデュアルシャッター方法を提案しています。最大 63kHz) の表面振動を検出し、音源によって引き起こされる振動を捕捉することで実現します。

これにより、楽器の分離やノイズの除去など、さまざまなニーズを実現できます。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

プロジェクトアドレス: https://imaging.cs.cmu.edu/vibration/

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/n1M8ZVspJcs

簡単な分析: https://www.louisbouchard .ai/cvpr-2022-best-paper/

Make-A-Scene: 人間の事前予測を使用したシーンベースのテキストから画像への生成

Make-A-Scene は単なる「もう一つの DALL・E」ではありません。

DALL・E はテキストプロンプトに基づいてランダムな画像を生成できますが、これは非常に優れていますが、生成された結果に対するユーザーの制御も制限されます。

Meta の目標は、このテキストから画像へのトレンドと以前のスケッチから画像へのモデルを組み合わせて、クリエイティブな表現を促進し、「メイク・ア・シーン」を生み出すことです: テキスト Aスケッチ条件付き画像生成間の素晴らしいブレンド。

紙のリンク: https://arxiv.org/abs/2203.13131

ビデオ説明: https://youtu.be/K3bZXXjW788

簡単な分析: https://www.louisbouchard。 ai/make-a-scene/

BANMo: 任意のビデオからターゲット 3D アニメーションモデルを構築する

Meta の調査に基づいて、次のことが必要です。猫や犬の複数の動画をアップロードするなど、変形可能なオブジェクトをキャプチャした動画がある場合、BANMo は数千の画像からの 2D 手がかりを標準空間に統合することにより、編集可能なアニメーション 3D モデルを再構築できます。また、事前定義された形状テンプレートは必要ありません。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2112.12761

プロジェクトアドレス: https://github.com/facebookresearch/banmo

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https: //youtu.be/jDTy-liFoCQ

簡単な分析: https://www.louisbouchard.ai/banmo/

潜在拡散モデルを使用した高解像度画像合成

今年人気の画像生成モデル DALL・E、Imagen、そして強力な Stable Diffusion の強力な画像生成モデルにはどのような機能があるのか一般？高い計算コストと膨大なトレーニング時間を除けば、それらはすべて同じ拡散メカニズムに基づいています。

拡散モデルは最近、DALL・E を使用したテキストから画像への変換や、画像の修復、スタイル転送、画像の超解像度。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察紙のリンク: https://arxiv.org/abs/2112.10752

プロジェクトアドレス: https://github.com/CompVis/latent-diffusion

ビデオ説明: https://youtu.be / RGBNdD3Wn-g

##簡単な分析: https://www.louisbouchard.ai/latent-diffusion-models/

PSG: シーンベースの画像生成モデルAI は画像内のオブジェクトを正確に識別するのに役立ちますが、オブジェクトと環境の関係を理解するのはそれほど簡単ではありません。

この目的を達成するために、Nanyang Polytechnic の研究者は、パノラマセグメンテーションに基づくパノラマシーングラフ生成 (PSG) タスクを提案しました。

従来の検出フレームベースのシーングラフ生成と比較して、PSG タスクでは、画像内のすべての関係 (オブジェクトとオブジェクト間の関係、オブジェクトとオブジェクト間の関係を含む) の包括的な出力が必要です。背景、背景と背景の関係など）、正確なセグメンテーションブロックを使用してオブジェクトを見つけます。

紙のリンク: https://arxiv.org/abs/2207.11247

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://psgdataset.org/

#オンライン申請: https://huggingface.co/spaces/ECCV2022/ PSG

ビデオ説明: https://youtu.be/cSsE_H_0Cr8

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ショートストーリー分析: https://www.louisbouchard.ai/psg/テキスト反転を使用して、テキストから画像へのパーソナライズされた生成を実現します

今年の大手メーカーの画像生成モデルは、海を渡る8人の仙人がそれぞれの不思議な力を発揮しているようなものだと言えますが、どのようにモデルに特定のスタイルの画像作品を生成させるのでしょうか？

テルアビブ大学と NVIDIA の学者は協力して、必要な画像を DIY できるパーソナライズされた画像生成モデルを立ち上げました。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2208.01618

プロジェクトアドレス: https://textual-inversion.github.io/

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/f3oXa7_SYek

簡単な分析: https://www.louisbouchard.ai/imageworthoneword/ #一般的なビデオ認識用の言語画像事前トレーニングモデル

ビジュアルテキストモデルの学習は間違いなく大きな成功を収めましたが、この新しい言語画像を事前トレーニングする方法は、方法の拡張です。ビデオ領域については未解決の問題が残っています。

Microsoft と中国科学院の学者らは、新しいモデルを最初から事前トレーニングするのではなく、事前トレーニングされた言語画像モデルをビデオ認識に直接適応させるシンプルで効果的な方法を提案しました。。

論文リンク: https://arxiv.org/abs/2208.02816

プロジェクトアドレス: https://github.com/microsoft/VideoX/tree/master/X-CLIP

ビデオ説明: https://youtu.be/seb4lmVPEe8

#簡単な分析: https://www.louisbouchard.ai/general-video-recognition/

Make- A-Video: ワンクリックテキスト生成ビデオモデル

画家は心ゆくまでキャンバスに絵を描きます。これほど鮮明で滑らかな画像では、ビデオのすべてのフレームが生成されていると考えられますか? AIによって？

MetaAIが立ち上げたMake-A-Videoは、単語を入力するだけで数秒でさまざまなスタイルの動画を生成できる「動画版DALL・E」ではありません。過言。

紙のリンク: https://arxiv.org/abs/2209.14792 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/MWwESVyHWto

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##簡単な分析: https:// www.louisbouchard.ai/make-a-video/

Whisper: 大規模で弱く教師ありの音声認識モデル

これについて考えたことはありますか?自分では理解できない言語であっても、ビデオ内の音声をすばやく翻訳できる翻訳ソフトウェアはありますか?

OpenAI のオープンソース Whisper はまさにそれを実現します。

Whisper は、680,000 時間以上の多言語データでトレーニングされました。騒がしい背景でも多言語音声を認識し、テキストに変換できます。さらに、専門用語の翻訳も可能です。

紙のリンク: https://arxiv.org/abs/2212.04356

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://github.com/openai/whisper#

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/uFOkMme19Zs

簡単な分析：https://www.louisbouchard.ai/whisper/

DreamFusion: 2D 画像を使用して 3D モデルを生成

テキストは画像、ビデオ、そして 3D モデルがあります ~

Google が立ち上げた DreamFusion は、事前にトレーニングされた 2D テキストを画像拡散モデルに使用することで、ワンクリックで 3D モデルを生成できます。拡散モデルは数十億の画像でトレーニングされています。テキストペアテキストから 3D モデルへの合成における最新のブレークスルーを推進します。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2209.14988

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/epuU0VRIcjE

## 簡単な分析: https:// www.louisbouchard.ai/dreamfusion/Imagic: 拡散モデルに基づく実画像編集手法

DALL・E などのテキスト画像生成モデルを使用し、文字を一行入力するだけで希望の画像を得ることができますが、AI によって生成された画像はそれほど完璧ではない場合があります。

Google、テクニオン・イスラエル工科大学、ワイツマン科学研究所の研究者らは、拡散モデルに基づく実画像編集手法である Imagic を導入しました。これは、次の方法でのみ実現できます。実際の写真のテキスト PS。

たとえば、人物の特徴を残したままポーズや構図を変更したり、立っている犬を座らせたり、鳥を羽ばたかせたりしたいです。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2210.09276

プロジェクトアドレス: https://imagic-editing.github.io/

#ビデオ説明: https://youtu.be/gbpPQ5kVJhM

簡単な分析: https://www.louisbouchard.ai/imagic/

eDiffi: 高、高-高品質な文字画像合成モデル

DALL・Eや安定拡散よりも強力な画像合成モデルが登場！

これは、より高品質な画像をより正確に生成できる NVIDIA の eDiffi で、さらにブラシテンプレートを追加することで、作品にさらなる創造性と柔軟性を加えることができます。

論文リンク: https://arxiv.org/abs/2211.01324 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス：https://deepimagination.cc/eDiff-I/

##動画説明：https ://youtu.be/grwp-ht_ixo

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/ediffi/

Infinite Nature: 1 枚の画像から自然シーンの無限ビュー生成を学習

##写真を撮って、それをドアのように開くことを考えたことはありますか?写真の中に飛んでいくのはどうでしょうか? ?

Google とコーネル大学の学者は、1 枚の画像から自然の風景を無制限に生成できる InfiniteNature-Zero を使用して、この想像力を現実にしました。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://arxiv.org/abs/2207.11148

プロジェクトアドレス: https://infinite-nature.github.io/

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

#ビデオ説明: https://youtu.be/FQzGhukV-l0

簡単な分析: https://www.louisbouchard.ai/infinitenature-zeroGalaxy: 科学のための大規模言語モデル

Meta によって開発された Gaoptica は、GPT-3 に匹敵する規模の大規模言語モデルですが、科学的であるという点で優れています。知識。

モデルは、政府の白書、ニュースの解説、Wikipedia のページやコードを書くことができ、引用の仕方や数式の書き方も知っています。これは人工知能と科学にとって大きな問題です。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

紙のリンク: https://arxiv.org/abs/2211.09085

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

ビデオ説明: https://youtu.be/2GfxkCWWzLU

## 簡単な分析: https:// www.louisbouchard.ai/gaoptica/

RAD-NeRF: オーディオ空間分解に基づくリアルタイムポートレート合成モデル

DeepFake の出現以来、 NeRF、AIによる顔変更は当たり前のように見えますが、問題があり、AIによって変更された顔は、口の形と一致していないため、その秘密が明らかになることがあります。

RAD-NeRF の登場により、この問題は解決され、ビデオに登場する発言者のポートレートをリアルタイムに合成でき、カスタムアバターにも対応します。

紙のリンク: https://arxiv.org/abs/2211.12368 本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

プロジェクトアドレス: https://me.kiui.moe/radnerf/

#ビデオ説明: https://youtu.be/JUqnLN6Q4B0

簡単な分析: https://www.louisbouchard.ai/rad-nerf/

ChatGPT: 言語対話用に最適化されたモデル2022 年の AI の大ヒット作品は、ChatGPT なしではどうやって実現できるでしょうか? ChatGPT はインターネット全体で人気があり、ポルノ記事やタイプコードなどを書くためにネチズンによって開発されました。応用の普遍的なモデル、まだ知らない方はぜひ見に来てください！

ビデオ説明: https://youtu.be/AsFgn8vU-tQ

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

簡単な分析: https://www.louisbouchard.ai/chatgpt/#本番環境で直接使用できるビデオ顔のリエイジング

現在のコンピュータービジョンモデルは、顔の年齢やスタイルの転写などを生成できますが、これは見た目がカッコいいだけで、実際のアプリケーションではほとんど効果がありません。既存の技術では、通常、顔に問題があります。特徴などの問題があります。後続のビデオフレームでは損失、低解像度、不安定な結果が生じるため、多くの場合、手動による二次編集が必要になります。

最近、ディズニーは、制作用にビデオ画像内の顔を再老化させるための最初の実用的で完全に自動化された方法である FRAN (Face Re-Aging Network) をリリースしましたが、この技術の終了を正式に発表しました。映画における俳優の年齢の視覚効果を変えるためにメイクアップアーティストに依存すること。

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3550454.3555520

#プロジェクトアドレス: https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-Effects/

本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察

##ビデオ説明: https://youtu.be/WC03N0NFfwk

##簡単な分析: https://www.louisbouchard.ai/disney-re-age/

以上が本当に重要な研究です！ 32 の論文が 2022 年の AI ホットスポットを徹底的に考察の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。