検索
ホームページテクノロジー周辺機器AILi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

人工知能の爆発的な普及により、私たちの時間の感覚が歪められています。

Stable Diffusion が誕生してまだ 4 か月しか経っていないのに、ChatGPT が存在してから 1 か月も経っていないなんて信じられますか?

鮮やかな比喩を使うと、まばたきをしている限り、まったく新しい業界を見逃すことになります。

2022 年の AI 分野では、大規模な生成モデルが雨後の筍のように出現し、AI 業界全体の状況を一変させました。

さらに、これらのモデルは急速に実験室から出て、現実に適用されつつあります。

たとえば、LLM テクノロジーは、意思決定エージェント (ゲーム、ロボットなど) と AI4Science という 2 つの新興分野に影響を与えました。

リー・フェイフェイの弟子であるジム・ファンが、2022 年の AI のハイライト瞬間トップ 10 をまとめました。時計の針を戻して、2022 年に AI がどのような驚くべき進歩を遂げるのかを見てみましょう。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

1. テキスト画像の生成

DALLE-2 は、あらゆるタイトルからリアルな高解像度画像を生成する最初のツールです。 - 画像のスケール拡散モデル。

これは AI に芸術的な革命を引き起こし、多くの新しいアプリケーション、スタートアップ、考え方を生み出しました。

しかし、DALLE-2 は OpenAI の壁の後ろで保護されており、オープンソースではありません。

OpenAI の後、LMU の StabilityAI と runwayml は英雄的な一歩を踏み出し、「潜在的な拡散」アルゴリズムに基づいて独自のインターネット スケールの text2image モデルをトレーニングしました。彼らはこのモデルを「安定拡散」と呼び、コードと重みをオープンソース化しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

事実は、Stable Diffusion のオープン性がゲームに大きな変化をもたらしたことを証明しています。

現在、多くのスタートアップや研究機関が Stable Diffusion に基づいて新しいアプリケーションを作成しており、Stable Diffusion 自体はオープンソース コミュニティによって継続的に改善されています。

最近、Stable Diffusion が v2.1 になり、単一の GPU で実行できるようになりました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

さらに、今年は GoogleAI から 2 つの image2text モデルが登場しました。 GoogleAI はモデルも API もリリースしていませんが、論文から多くの興味深い洞察を得ることができます。

Imagen

https://imagen.research.google

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Parti

https://parti.research.google.ディフュージョン無しのトランスフォーマーモデルです。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

# 2. テキスト-テキストの生成

誰もが知っているように、ここでは ChatGPT について話します!

これは、5 日間で 100 万人のユーザーを獲得した史上唯一のアプリです。

ChatGPT は、人間の創造力にも大きなインスピレーションを与えてくれました。

このリストでは、ChatGPT に関するすべての便利で想像力に富んだアイデアを確認できます: https://github.com/f/awesome-chat

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##両方ChatGPT と GPT-3.5 は、RLHF (「ヒューマン フィードバックからの強化学習」) と呼ばれる新しいテクノロジを使用します。

これは、プロンプト プロジェクトが間もなく消滅する可能性があることも意味します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

ChatGPT の人気により、Jasper Chat、YouChat、Replit の Ghostwriter チャット、perplexity_ai などの新しいスタートアップや競合他社の波が生まれました。

これらの競合他社は、Google 幹部さえも汗をかくほど直感的な検索方法を提供しています!

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

3. テキスト ロボット モデル

GPT に腕と足を与えて、散らかったキッチンを掃除してもらうにはどうすればよいでしょうか?

NLP とは異なり、ロボット モデルは物理世界と対話する必要があります。

今年、事前に訓練された大型の Transformer がついにロボット工学の分野で最も困難な問題を解決し始めました!

VIMA

10 月に、同僚と私は、「ロボット GPT」、つまり VIMA という名前の変圧器を作成しました。

混合テキスト、画像、ビデオをプロンプトとして受信し、ロボット アームの制御を出力できます。

私たちのモデルは VIMA (「VisuoMotor Attendance」) と呼ばれ、完全にオープンソースです。

現在、モデル容量とデータの強力なスケーラビリティにより、単一のエージェントが視覚的なターゲット、ビデオの 1 回限りの模倣、新しいコンセプトの基礎、視覚的な制約などを解決できるようになりました。

RT-1

VIMA と同様の道をたどって、GoogleAI の研究者は 700 のタスクで訓練されたロボット トランスフォーマーである RT-1 をリリースしました。 13万人の人間によるデモ。

このデータは、文字通り鋼鉄の軍隊である 13 台のロボットによって 17 か月にわたって収集されました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

4. テキストビデオ

本質的に、ビデオは時間をかけて結び付けられた一連の画像であり、動きの錯覚を生み出します。 。

text2image を実行できるのであれば、タイムラインを追加してさらに楽しんでみてはいかがでしょうか?

現在、テキストからビデオへの分野には 3 つの主要な作品がありますが、どれもオープンソースではありません。

Make-A-Video

1 つ目は Meta AI の Make-A-Video です。ペアになったテキストビデオ データは必要なく、テキストビデオを取得できます。世代。

ここからトライアルアクセスにサインアップできます: https://makeavevideo.studio

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs / 2209.14792

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##Imagen Video

Google AI の Imagen Video: Imagen 静止画像ジェネレーターに基づいて、拡散モデルを使用して高解像度ビデオを生成します。

デモ: http://imagen.research.google/video/

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs/2210.02303

Phenaki

Google AI の Phenaki: オープン ドメインのテキスト説明から可変長の動画を生成します。

デモ: https://phenaki.video

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

紙のリンク: https://arxiv.org/abs/2210.02399

5. Text-3D モデリング

革新的な製品の設計から映画やゲームの素晴らしい視覚効果の作成に至るまで、3D モデリングは Text-X 世代になりつつあり、次のブルー オーシャンになります。モデルの。

驚くべきことに、2022 年には有望な 3D 生成モデルがたくさんあります。ここでは、Fan が 3 つのモデルをリストします。

DreamFusion

最初に登場するのは、Google AI 研究チームとカリフォルニア大学バークレー校が共同開発した DreamFusion です。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2209.14988.pdf

このモデルは、2 次元のテキストから画像拡散モデル テキストから 3D への合成。

NeRF アルゴリズムに基づいて、DreamFusion は指定されたテキストから 3D モデルを生成できます。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

モデルは、あらゆる角度から表示したり、あらゆる照明の下で再照明したり、あらゆる 3D 環境に合成したりできます。

Magic3D

2 番目の結果は、GET3D と Magic3D という名前の NVIDIA AI チームの 2 つのプロジェクトです。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

GET3D ペーパーのリンク: https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Magic3D 論文リンク: https://arxiv.org/pdf/2211.10440.pdf

2D 画像のみを使用してトレーニングされた GET3D は、高忠実度のテクスチャと複雑な幾何学的詳細を備えた 3D グラフィックスを生成できます。

このモデルを使用すると、ユーザーは形状を 3D レンダラーやゲーム エンジンに即座にインポートして、その後の編集を行うことができます。

Magic3D は DreamFusion に似ており、テキストから画像へのモデルを使用して 2D 画像を生成し、それが体積 NeRF (神経放射線場) データに最適化され、低解像度で生成された粗いモデルが微細な画像に最適化されます。高解像度のモデル。


Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

NVIDIA AI チームによると、結果として得られる Magic3D メソッドは、DreamFusion よりも高速に 3D オブジェクトを生成できます。

Point-E

今年の初めに発売された DALL-E 2 がその天才的なブラシで誰もを驚かせた後、OpenAI は最新の画像生成モデル「POINT- E」は火曜日に、テキストから直接 3D モデルを生成できます。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2212.08751.pdf

競合他社 (Google の DreamFusion など) と比較して、単一の GPU は数時間動作しますが、POINT-E は単一の GPU で数分で 3D 画像を生成できます。

テストによると、POINT-E は基本的にプロンプ​​ト入力後数秒で 3D 画像を出力できるほか、出力画像のカスタム編集、保存などの機能もサポートしています。

6.「Minecraft」をプレイできる AI

「Minecraft」は、AI の一般的な知能をテストするのに最適なゲームです。まず第一に、それはプレイヤーの創造性を非常に反映する無限に開かれたサンドボックス ゲームです。

第二に、このゲームのプレイヤーベースは 1 億 4,000 万人で、これは英国の総人口の 2 倍です。これほど巨大なユーザーベースがあるため、AI 学習用のゲー​​ムデータが無限に供給されます。

では、AIは人間と同じように想像力を発揮できるのでしょうか?

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Jim Fan と同僚は協力して、自然言語プロンプトの下で多くのタスクを解決できる、「Minecraft」をプレイするための初の AI、「MineDojo」を開発しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2206.08853.pdf

ファンの最終目標は、「具体化された ChatGPT」を構築することです。現在、MineDojo プラットフォームは完全にオープンソースです。

同時に、Jeff Clune 氏のチームは、キーボードとマウスの動きを直接出力できる Video Pre-Training (VPT) と呼ばれるモデルを発表しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2206.11795.pdf

VPT にはより広い視野がありますが、それは言語条件によって制限されません。現時点では、MineDojo と VPT は相互に補完します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

##7. AI Diplomat

Meta AI が開発した CICERO は、ゲーム「外交」で人間レベルのパフォーマンスを初めて達成しました。人工知能エージェント。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://www.science.org/doi/10.1126/science.ade9097

「外交」これは、ボード ゲームのリスク、カード ゲームのポーカー、テレビ番組のサバイバーを組み合わせた 7 人用の古典的な戦略ゲームです。このゲームでは、人間と協力したり競争したりするために、広範な自然言語ネゴシエーションが必要です。

しかし、CICEROの出現は、人工知能が他人を説得したりハッタリをかけたりする能力を備えていることを示しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

現在、DeepMind は独自の外交官 AI エージェントの開発も発表しています。では、CICERO がこの AI モデルを使用するとどうなるでしょうか?

8. オーディオテキストモデル

Whisper は、OpenAI によってリリースされた大規模なオープンソース音声認識モデルであり、英語において人間レベルに近い堅牢性と精度を備えています。音声認識の精度。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://arxiv.org/pdf/2212.04356.pdf

Whisper はインターネットから 680 を通過しました。 000時間の音声データのトレーニング。 Open AI は、Whisper の音声認識能力が人間のレベルに達していることを強調しています。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

Open AI は Whisper をオープンソース化します。待望の GPT-4 をトレーニングするために、より多くのテキスト トークンのロックを解除するためですか?

9. 核融合

DeepMind とスイス連邦工科大学ローザンヌ (EPFL) は、初の核融合関連の深層強化学習システムを共同開発しました。トカマク内の核融合プラズマの核安定性を維持します。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

論文リンク: https://www.nature.com/articles/s41586-021-04301-9

同じ今月、米国エネルギー省は大きな進歩を発表しました。人類は初めて、核融合反応による正味エネルギーの増加を達成しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

人類がこのマイルストーンを達成したのはこれが初めてです。今世では融合文明になるかもしれない!

10. 生物学に応用されたトランスフォーマー

2021 年、AlphaFold は言語モデルによるタンパク質の 3D 構造の予測を開始しました。

7 月、DeepMind は、AlphaFold のタンパク質データベースを 2 億構造に拡張する「Protein Universe」を発表しました。

さらに、NVIDIA AI 研究チームは、バイオテクノロジー企業や研究者による生体分子データの生成、予測、理解を支援するために、BioNeMo 大規模言語モデル フレームワークも拡張しました。

Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる

動画説明: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

上記は、2022年大会に関するジム・ファンのコメントです。 10 月 ビッグ AI のハイライトの目録。もちろんファン氏は、人工知能の進歩に貢献した刺激的な作品は数え切れないほどあるとも語った。

すべての論文は AI 構築におけるレンガであり、すべての努力は称賛されるべきです。

しかし、ファン氏は最後に、人工知能システムがますます強力になるにつれて、潜在的な危険やリスクを認識し、それらを軽減するための措置を講じる必要があるとも強調しました。

慎重なトレーニング設計、適切な監督、または新しい安全対策方法によっても、人工知能の安全性と倫理は、ますます多くの AI 専門家によって議論される議題となっています。

2022年が奇跡に満ちた素晴らしい年になることは間違いありません。来年は世界に衝撃を与えるどんな画期的な出来事が起こるでしょうか?私たちはあなたと一緒に見守っています。

参照:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

以上がLi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
テスラのロブバンは、2024年のロボタクシティーザーの隠された宝石でしたテスラのロブバンは、2024年のロボタクシティーザーの隠された宝石でしたApr 22, 2025 am 11:48 AM

2008年以来、私は共有ライドバンを擁護しました。これは、「Robotjitney」と呼ばれる「後に「Vansit」と呼ばれ、都市交通の未来として擁護しました。 私はこれらの車両を21世紀の次世代トランジットソリューション、スルパとして予見します

サムのクラブは領収書の小切手を排除し、小売を強化するためにAIに賭けますサムのクラブは領収書の小切手を排除し、小売を強化するためにAIに賭けますApr 22, 2025 am 11:29 AM

チェックアウトエクスペリエンスに革命をもたらす Sam's Clubの革新的な「Just Go」システムは、既存のAIを搭載した「スキャン&ゴー」テクノロジーに基づいて構築され、ショッピング旅行中にメンバーがサムズクラブアプリを介して購入をスキャンできるようになりました。

NvidiaのAI OmniverseはGTC 2025で拡大しますNvidiaのAI OmniverseはGTC 2025で拡大しますApr 22, 2025 am 11:28 AM

GTC 2025でのNvidiaの強化された予測可能性と新製品のラインナップ AIインフラストラクチャの重要なプレーヤーであるNvidiaは、クライアントの予測可能性の向上に焦点を当てています。 これには、一貫した製品配信、パフォーマンスの期待を満たすこと、および

Google'のGemma 2モデルの機能を調査しますGoogle'のGemma 2モデルの機能を調査しますApr 22, 2025 am 11:26 AM

GoogleのGemma 2:強力で効率的な言語モデル 効率とパフォーマンスで祝われるGoogleのGemmaファミリーは、Gemma 2の到着とともに拡大しました。この最新リリースは2つのモデルで構成されています。

genaiの次の波:Kirk Borne博士との展望-AnalyticsVidhyagenaiの次の波:Kirk Borne博士との展望-AnalyticsVidhyaApr 22, 2025 am 11:21 AM

データエピソードを率いるこの主要なのは、主要なデータサイエンティスト、天体物理学者、TEDXスピーカーであるカークボーン博士を特徴としています。 ビッグデータ、AI、および機械学習の有名な専門家であるボルネ博士は、現在の状態と将来のトラジェについて非常に貴重な洞察を提供しています

ランナーとアスリート向けのAI:私たちは素晴らしい進歩を遂げていますランナーとアスリート向けのAI:私たちは素晴らしい進歩を遂げていますApr 22, 2025 am 11:12 AM

このスピーチには、人工知能が人々の運動をサポートするのに非常に優れている理由を示すエンジニアリングに関するバックグラウンド情報には、非常に洞察に満ちた視点がいくつかありました。 各寄稿者の観点からコアアイデアを概説し、スポーツにおける人工知能の適用の調査の重要な部分である3つの設計側面を実証します。 エッジデバイスと生の個人データ 人工知能に関するこのアイデアには、実際には2つのコンポーネントが含まれています。1つは大きな言語モデルを配置する場所に関連しており、もう1つは人間の言語と、リアルタイムで測定したときにバイタルサインが「表現」する言語の違いに関連しています。 アレクサンダー・アミニはランニングとテニスについて多くのことを知っていますが、彼はまだ

Caterpillarでのテクノロジー、才能、変革に関するJamie EngstromCaterpillarでのテクノロジー、才能、変革に関するJamie EngstromApr 22, 2025 am 11:10 AM

Caterpillarの最高情報責任者であり、その上級副社長であるJamie Engstromは、28か国の2,200人以上のITプロフェッショナルのグローバルチームを率いています。 彼女の現在の役割で4年半を含むCaterpillarで26年間、Engst

新しいGoogleフォトの更新は、ウルトラHDR品質の写真をポップにします新しいGoogleフォトの更新は、ウルトラHDR品質の写真をポップにしますApr 22, 2025 am 11:09 AM

Google Photosの新しいUltra HDRツール:クイックガイド Google Photosの新しいUltra HDRツールで写真を強化し、標準画像を活気に満ちた高ダイナミックレンジの傑作に変換します。ソーシャルメディアに最適なこのツールは、あらゆる写真の影響を高め、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。