ホームページ >テクノロジー周辺機器 >AI >Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

WBOY
WBOY転載
2023-04-18 10:49:021398ブラウズ

人工知能の爆発的な普及により、私たちの時間の感覚が歪められています。

Stable Diffusion が誕生してまだ 4 か月しか経っていないのに、ChatGPT が存在してから 1 か月も経っていないなんて信じられますか?

鮮やかな比喩を使うと、まばたきをしている限り、まったく新しい業界を見逃すことになります。

2022 年の AI 分野では、大規模な生成モデルが雨後の筍のように出現し、AI 業界全体の状況を一変させました。

さらに、これらのモデルは急速に実験室から出て、現実に適用されつつあります。

たとえば、LLM テクノロジーは、意思決定エージェント (ゲーム、ロボットなど) と AI4Science という 2 つの新興分野に影響を与えました。

リー・フェイフェイの弟子であるジム・ファンが、2022 年の AI のハイライト瞬間トップ 10 をまとめました。時計の針を戻して、2022 年に AI がどのような驚くべき進歩を遂げるのかを見てみましょう。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

1. テキスト画像の生成

DALLE-2 は、あらゆるタイトルからリアルな高解像度画像を生成する最初のツールです。 - 画像のスケール拡散モデル。

これは AI に芸術的な革命を引き起こし、多くの新しいアプリケーション、スタートアップ、考え方を生み出しました。

しかし、DALLE-2 は OpenAI の壁の後ろで保護されており、オープンソースではありません。

OpenAI の後、LMU の StabilityAI と runwayml は英雄的な一歩を踏み出し、「潜在的な拡散」アルゴリズムに基づいて独自のインターネット スケールの text2image モデルをトレーニングしました。彼らはこのモデルを「安定拡散」と呼び、コードと重みをオープンソース化しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

事実は、Stable Diffusion のオープン性がゲームに大きな変化をもたらしたことを証明しています。

現在、多くのスタートアップや研究機関が Stable Diffusion に基づいて新しいアプリケーションを作成しており、Stable Diffusion 自体はオープンソース コミュニティによって継続的に改善されています。

最近、Stable Diffusion が v2.1 になり、単一の GPU で実行できるようになりました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

さらに、今年は GoogleAI から 2 つの image2text モデルが登場しました。 GoogleAI はモデルも API もリリースしていませんが、論文から多くの興味深い洞察を得ることができます。

Imagen

https://imagen.research.google

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Parti

https://parti.research.google.ディフュージョン無しのトランスフォーマーモデルです。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

# 2. テキスト-テキストの生成

誰もが知っているように、ここでは ChatGPT について話します!

これは、5 日間で 100 万人のユーザーを獲得した史上唯一のアプリです。

ChatGPT は、人間の創造力にも大きなインスピレーションを与えてくれました。

このリストでは、ChatGPT に関するすべての便利で想像力に富んだアイデアを確認できます: https://github.com/f/awesome-chat

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##両方ChatGPT と GPT-3.5 は、RLHF (「ヒューマン フィードバックからの強化学習」) と呼ばれる新しいテクノロジを使用します。

これは、プロンプト プロジェクトが間もなく消滅する可能性があることも意味します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

ChatGPT の人気により、Jasper Chat、YouChat、Replit の Ghostwriter チャット、perplexity_ai などの新しいスタートアップや競合他社の波が生まれました。

これらの競合他社は、Google 幹部さえも汗をかくほど直感的な検索方法を提供しています!

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

3. テキスト ロボット モデル

GPT に腕と足を与えて、散らかったキッチンを掃除してもらうにはどうすればよいでしょうか?

NLP とは異なり、ロボット モデルは物理世界と対話する必要があります。

今年、事前に訓練された大型の Transformer がついにロボット工学の分野で最も困難な問題を解決し始めました!

VIMA

10 月に、同僚と私は、「ロボット GPT」、つまり VIMA という名前の変圧器を作成しました。

混合テキスト、画像、ビデオをプロンプトとして受信し、ロボット アームの制御を出力できます。

私たちのモデルは VIMA (「VisuoMotor Attendance」) と呼ばれ、完全にオープンソースです。

現在、モデル容量とデータの強力なスケーラビリティにより、単一のエージェントが視覚的なターゲット、ビデオの 1 回限りの模倣、新しいコンセプトの基礎、視覚的な制約などを解決できるようになりました。

RT-1

VIMA と同様の道をたどって、GoogleAI の研究者は 700 のタスクで訓練されたロボット トランスフォーマーである RT-1 をリリースしました。 13万人の人間によるデモ。

このデータは、文字通り鋼鉄の軍隊である 13 台のロボットによって 17 か月にわたって収集されました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

4. テキストビデオ

本質的に、ビデオは時間をかけて結び付けられた一連の画像であり、動きの錯覚を生み出します。 。

text2image を実行できるのであれば、タイムラインを追加してさらに楽しんでみてはいかがでしょうか?

現在、テキストからビデオへの分野には 3 つの主要な作品がありますが、どれもオープンソースではありません。

Make-A-Video

1 つ目は Meta AI の Make-A-Video です。ペアになったテキストビデオ データは必要なく、テキストビデオを取得できます。世代。

ここからトライアルアクセスにサインアップできます: https://makeavevideo.studio

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs / 2209.14792

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##Imagen Video

Google AI の Imagen Video: Imagen 静止画像ジェネレーターに基づいて、拡散モデルを使用して高解像度ビデオを生成します。

デモ: http://imagen.research.google/video/

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs/2210.02303

Phenaki

Google AI の Phenaki: オープン ドメインのテキスト説明から可変長の動画を生成します。

デモ: https://phenaki.video

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs/2210.02399

5. Text-3D モデリング

革新的な製品の設計から映画やゲームの素晴らしい視覚効果の作成に至るまで、3D モデリングは Text-X 世代になりつつあり、次のブルー オーシャンになります。モデルの。

驚くべきことに、2022 年には有望な 3D 生成モデルがたくさんあります。ここでは、Fan が 3 つのモデルをリストします。

DreamFusion

最初に登場するのは、Google AI 研究チームとカリフォルニア大学バークレー校が共同開発した DreamFusion です。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2209.14988.pdf

このモデルは、2 次元のテキストから画像拡散モデル テキストから 3D への合成。

NeRF アルゴリズムに基づいて、DreamFusion は指定されたテキストから 3D モデルを生成できます。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

モデルは、あらゆる角度から表示したり、あらゆる照明の下で再照明したり、あらゆる 3D 環境に合成したりできます。

Magic3D

2 番目の結果は、GET3D と Magic3D という名前の NVIDIA AI チームの 2 つのプロジェクトです。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

GET3D ペーパーのリンク: https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Magic3D 論文リンク: https://arxiv.org/pdf/2211.10440.pdf

2D 画像のみを使用してトレーニングされた GET3D は、高忠実度のテクスチャと複雑な幾何学的詳細を備えた 3D グラフィックスを生成できます。

このモデルを使用すると、ユーザーは形状を 3D レンダラーやゲーム エンジンに即座にインポートして、その後の編集を行うことができます。

Magic3D は DreamFusion に似ており、テキストから画像へのモデルを使用して 2D 画像を生成し、それが体積 NeRF (神経放射線場) データに最適化され、低解像度で生成された粗いモデルが微細な画像に最適化されます。高解像度のモデル。


Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

NVIDIA AI チームによると、結果として得られる Magic3D メソッドは、DreamFusion よりも高速に 3D オブジェクトを生成できます。

Point-E

今年の初めに発売された DALL-E 2 がその天才的なブラシで誰もを驚かせた後、OpenAI は最新の画像生成モデル「POINT- E」は火曜日に、テキストから直接 3D モデルを生成できます。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2212.08751.pdf

競合他社 (Google の DreamFusion など) と比較して、単一の GPU は数時間動作しますが、POINT-E は単一の GPU で数分で 3D 画像を生成できます。

テストによると、POINT-E は基本的にプロンプ​​ト入力後数秒で 3D 画像を出力できるほか、出力画像のカスタム編集、保存などの機能もサポートしています。

6.「Minecraft」をプレイできる AI

「Minecraft」は、AI の一般的な知能をテストするのに最適なゲームです。まず第一に、それはプレイヤーの創造性を非常に反映する無限に開かれたサンドボックス ゲームです。

第二に、このゲームのプレイヤーベースは 1 億 4,000 万人で、これは英国の総人口の 2 倍です。これほど巨大なユーザーベースがあるため、AI 学習用のゲー​​ムデータが無限に供給されます。

では、AIは人間と同じように想像力を発揮できるのでしょうか?

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Jim Fan と同僚は協力して、自然言語プロンプトの下で多くのタスクを解決できる、「Minecraft」をプレイするための初の AI、「MineDojo」を開発しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2206.08853.pdf

ファンの最終目標は、「具体化された ChatGPT」を構築することです。現在、MineDojo プラットフォームは完全にオープンソースです。

同時に、Jeff Clune 氏のチームは、キーボードとマウスの動きを直接出力できる Video Pre-Training (VPT) と呼ばれるモデルを発表しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2206.11795.pdf

VPT にはより広い視野がありますが、それは言語条件によって制限されません。現時点では、MineDojo と VPT は相互に補完します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##7. AI Diplomat

Meta AI が開発した CICERO は、ゲーム「外交」で人間レベルのパフォーマンスを初めて達成しました。人工知能エージェント。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://www.science.org/doi/10.1126/science.ade9097

「外交」これは、ボード ゲームのリスク、カード ゲームのポーカー、テレビ番組のサバイバーを組み合わせた 7 人用の古典的な戦略ゲームです。このゲームでは、人間と協力したり競争したりするために、広範な自然言語ネゴシエーションが必要です。

しかし、CICEROの出現は、人工知能が他人を説得したりハッタリをかけたりする能力を備えていることを示しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

現在、DeepMind は独自の外交官 AI エージェントの開発も発表しています。では、CICERO がこの AI モデルを使用するとどうなるでしょうか?

8. オーディオテキストモデル

Whisper は、OpenAI によってリリースされた大規模なオープンソース音声認識モデルであり、英語において人間レベルに近い堅牢性と精度を備えています。音声認識の精度。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2212.04356.pdf

Whisper はインターネットから 680 を通過しました。 000時間の音声データのトレーニング。 Open AI は、Whisper の音声認識能力が人間のレベルに達していることを強調しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Open AI は Whisper をオープンソース化します。待望の GPT-4 をトレーニングするために、より多くのテキスト トークンのロックを解除するためですか?

9. 核融合

DeepMind とスイス連邦工科大学ローザンヌ (EPFL) は、初の核融合関連の深層強化学習システムを共同開発しました。トカマク内の核融合プラズマの核安定性を維持します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://www.nature.com/articles/s41586-021-04301-9

同じ今月、米国エネルギー省は大きな進歩を発表しました。人類は初めて、核融合反応による正味エネルギーの増加を達成しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

人類がこのマイルストーンを達成したのはこれが初めてです。今世では融合文明になるかもしれない!

10. 生物学に応用されたトランスフォーマー

2021 年、AlphaFold は言語モデルによるタンパク質の 3D 構造の予測を開始しました。

7 月、DeepMind は、AlphaFold のタンパク質データベースを 2 億構造に拡張する「Protein Universe」を発表しました。

さらに、NVIDIA AI 研究チームは、バイオテクノロジー企業や研究者による生体分子データの生成、予測、理解を支援するために、BioNeMo 大規模言語モデル フレームワークも拡張しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

動画説明: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

上記は、2022年大会に関するジム・ファンのコメントです。 10 月 ビッグ AI のハイライトの目録。もちろんファン氏は、人工知能の進歩に貢献した刺激的な作品は数え切れないほどあるとも語った。

すべての論文は AI 構築におけるレンガであり、すべての努力は称賛されるべきです。

しかし、ファン氏は最後に、人工知能システムがますます強力になるにつれて、潜在的な危険やリスクを認識し、それらを軽減するための措置を講じる必要があるとも強調しました。

慎重なトレーニング設計、適切な監督、または新しい安全対策方法によっても、人工知能の安全性と倫理は、ますます多くの AI 専門家によって議論される議題となっています。

2022年が奇跡に満ちた素晴らしい年になることは間違いありません。来年は世界に衝撃を与えるどんな画期的な出来事が起こるでしょうか?私たちはあなたと一緒に見守っています。

参照:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

以上がLi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。