Li Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねる
人工知能の爆発的な普及により、私たちの時間の感覚が歪められています。
Stable Diffusion が誕生してまだ 4 か月しか経っていないのに、ChatGPT が存在してから 1 か月も経っていないなんて信じられますか?
鮮やかな比喩を使うと、まばたきをしている限り、まったく新しい業界を見逃すことになります。
2022 年の AI 分野では、大規模な生成モデルが雨後の筍のように出現し、AI 業界全体の状況を一変させました。
さらに、これらのモデルは急速に実験室から出て、現実に適用されつつあります。
たとえば、LLM テクノロジーは、意思決定エージェント (ゲーム、ロボットなど) と AI4Science という 2 つの新興分野に影響を与えました。
リー・フェイフェイの弟子であるジム・ファンが、2022 年の AI のハイライト瞬間トップ 10 をまとめました。時計の針を戻して、2022 年に AI がどのような驚くべき進歩を遂げるのかを見てみましょう。
1. テキスト画像の生成
DALLE-2 は、あらゆるタイトルからリアルな高解像度画像を生成する最初のツールです。 - 画像のスケール拡散モデル。
これは AI に芸術的な革命を引き起こし、多くの新しいアプリケーション、スタートアップ、考え方を生み出しました。
しかし、DALLE-2 は OpenAI の壁の後ろで保護されており、オープンソースではありません。
OpenAI の後、LMU の StabilityAI と runwayml は英雄的な一歩を踏み出し、「潜在的な拡散」アルゴリズムに基づいて独自のインターネット スケールの text2image モデルをトレーニングしました。彼らはこのモデルを「安定拡散」と呼び、コードと重みをオープンソース化しています。
事実は、Stable Diffusion のオープン性がゲームに大きな変化をもたらしたことを証明しています。
現在、多くのスタートアップや研究機関が Stable Diffusion に基づいて新しいアプリケーションを作成しており、Stable Diffusion 自体はオープンソース コミュニティによって継続的に改善されています。
最近、Stable Diffusion が v2.1 になり、単一の GPU で実行できるようになりました。
さらに、今年は GoogleAI から 2 つの image2text モデルが登場しました。 GoogleAI はモデルも API もリリースしていませんが、論文から多くの興味深い洞察を得ることができます。
Imagen
https://imagen.research.google
Parti
https://parti.research.google.ディフュージョン無しのトランスフォーマーモデルです。
VIMA
10 月に、同僚と私は、「ロボット GPT」、つまり VIMA という名前の変圧器を作成しました。 混合テキスト、画像、ビデオをプロンプトとして受信し、ロボット アームの制御を出力できます。 私たちのモデルは VIMA (「VisuoMotor Attendance」) と呼ばれ、完全にオープンソースです。 現在、モデル容量とデータの強力なスケーラビリティにより、単一のエージェントが視覚的なターゲット、ビデオの 1 回限りの模倣、新しいコンセプトの基礎、視覚的な制約などを解決できるようになりました。RT-1
VIMA と同様の道をたどって、GoogleAI の研究者は 700 のタスクで訓練されたロボット トランスフォーマーである RT-1 をリリースしました。 13万人の人間によるデモ。 このデータは、文字通り鋼鉄の軍隊である 13 台のロボットによって 17 か月にわたって収集されました。4. テキストビデオ
本質的に、ビデオは時間をかけて結び付けられた一連の画像であり、動きの錯覚を生み出します。 。
text2image を実行できるのであれば、タイムラインを追加してさらに楽しんでみてはいかがでしょうか?
現在、テキストからビデオへの分野には 3 つの主要な作品がありますが、どれもオープンソースではありません。
Make-A-Video
1 つ目は Meta AI の Make-A-Video です。ペアになったテキストビデオ データは必要なく、テキストビデオを取得できます。世代。
ここからトライアルアクセスにサインアップできます: https://makeavevideo.studio
紙のリンク: https://arxiv.org/abs / 2209.14792
Phenaki
Google AI の Phenaki: オープン ドメインのテキスト説明から可変長の動画を生成します。 デモ: https://phenaki.videoDreamFusion
最初に登場するのは、Google AI 研究チームとカリフォルニア大学バークレー校が共同開発した DreamFusion です。Magic3D
2 番目の結果は、GET3D と Magic3D という名前の NVIDIA AI チームの 2 つのプロジェクトです。
Point-E
今年の初めに発売された DALL-E 2 がその天才的なブラシで誰もを驚かせた後、OpenAI は最新の画像生成モデル「POINT- E」は火曜日に、テキストから直接 3D モデルを生成できます。では、AIは人間と同じように想像力を発揮できるのでしょうか?
Jim Fan と同僚は協力して、自然言語プロンプトの下で多くのタスクを解決できる、「Minecraft」をプレイするための初の AI、「MineDojo」を開発しました。
論文リンク: https://arxiv.org/pdf/2206.08853.pdf
ファンの最終目標は、「具体化された ChatGPT」を構築することです。現在、MineDojo プラットフォームは完全にオープンソースです。
同時に、Jeff Clune 氏のチームは、キーボードとマウスの動きを直接出力できる Video Pre-Training (VPT) と呼ばれるモデルを発表しました。
論文リンク: https://arxiv.org/pdf/2206.11795.pdf
VPT にはより広い視野がありますが、それは言語条件によって制限されません。現時点では、MineDojo と VPT は相互に補完します。
参照:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上がLi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

OpenAIがリリースした最新のモデルGPT-4Oは、テキストを生成できるだけでなく、広範囲にわたる注目を集めている画像生成関数も備えています。最も人目を引く機能は、「ギブリスタイルのイラスト」の生成です。写真をChatGptにアップロードし、簡単な指示を提供して、Studio Ghibliで作品のような夢のような画像を生成します。この記事では、実際の操作プロセス、効果エクスペリエンス、および注意が必要なエラーと著作権の問題について詳しく説明します。 Openaiがリリースした最新モデル「O3」の詳細については、ここをクリックしてください Openai O3(ChatGpt O3)の詳細な説明:機能、価格設定システム、O4-Miniはじめに Ghibliスタイルの記事の英語版については、ここをクリックしてください⬇ chatgptでjiを作成します

新しいコミュニケーション手法として、自治体におけるChatGPTの活用・導入が注目を集めています。 幅広い地域でその動きが進む一方で、中にはChatGPTの利用を見送った自治体もあります。 本記事では、自治体でのChatGPT導入事例を紹介していきます。文書作成の支援や市民との対話等、多彩な改革事例を通じて、自治体サービスの質的向上及び効率化をいかに実現しているかについて掘り下げていきます。 職員の業務負担軽減や市民の利便性向上を目指す自治体担当者はもちろん、先進的な活用事例に関心のあるすべての

「深津式プロンプトシステム」と呼ばれるフレームワークをご存知でしょうか? ChatGPTを始めとする言語モデルは非常に優秀ですが、その潜在能力を最大限引き出すためには適切なプロンプトが不可欠です。深津式プロンプトは出力精度を向上させる為に設計された代表的なプロンプト手法の一つです。 本記事では、具体的な使用方法や実例を交えて、深津式プロンプトの原則と特徴を解説しています。 さらに、他の有名なプロンプトテンプレートとプロンプト設計において役立つテクニックも紹介しておりますので、これらを踏まえて、C

ChatGPT Search:革新的なAI検索エンジンで最新情報を効率的に取得! この記事では、OpenAIが提供するChatGPTの新機能「ChatGPT Search」を徹底解説します。リアルタイムのウェブ情報に基づいた信頼性の高い回答、そして直感的な操作性により、情報収集の効率化を実現するこのツールの特徴、使い方、そして競合他社との比較について詳しく見ていきましょう。ChatGPT Searchは、広告非表示の快適な環境で、ユーザーの質問に的確に応える、会話形式のインタラクティブな検索体験

情報爆発のある現代社会では、説得力のある記事を作成することは容易ではありません。創造性を使用して、限られた時間とエネルギー内で読者を引き付ける記事を書く方法には、素晴らしいスキルと豊かな経験が必要です。 現時点では、革新的な執筆支援として、ChatGptは多くの注目を集めました。 ChatGPTは、巨大なデータを使用して、言語生成モデルをトレーニングして、自然でスムーズで洗練された記事を生成します。 この記事では、ChatGPTを効果的に使用し、高品質の記事を効率的に作成する方法を紹介します。 ChatGPTを使用する執筆プロセスを徐々に説明し、特定のケースを組み合わせて、その利点と短所、適用可能なシナリオ、安全な使用予防措置について詳しく説明します。 ChatGptは、あらゆる種類の障害を克服する作家になります。

AIを活用した効率的な図表作成ガイド ビジュアル資料は情報を効果的に伝える上で不可欠ですが、その作成には多大な時間と労力がかかります。しかし、ChatGPTやDALL-E 3といったAI技術の台頭により、図表作成プロセスは劇的に変化しつつあります。本記事では、これらの最先端ツールを用いた効率的で魅力的な図表作成方法を詳細に解説します。アイデア出しから完成までを網羅し、具体的な手順、コツ、活用可能なプラグインやAPI、そして画像生成AI「DALL-E 3」の使い方まで、図表作成に役立つ情報を豊富に

ChatGpt Plusのロックを解除:料金、支払い方法、アップグレードガイド 世界的に有名な生成AIであるChatGptは、日常生活やビジネス分野で広く使用されています。 ChatGPTは基本的に無料ですが、ChatGPT Plusの有料版は、プラグイン、画像認識など、さまざまな付加価値サービスを提供し、作業効率を大幅に改善します。この記事では、ChatGPT Plusの充電基準、支払い方法、アップグレードプロセスについて詳しく説明します。 Openaiの最新の画像生成テクノロジー「GPT-4O画像生成」の詳細については、クリックしてください: GPT-4o画像生成の詳細な説明:使用方法、迅速な単語の例、商業用途、および他のAISとの違い 目次 chatgptプラス料金 ch

デザインワークを効率化し、創造性を高めるためのChatGPT活用術 この記事では、ChatGPTを活用したデザイン制作方法を詳しく解説します。アイデア出し、テキスト生成、Webデザインなど、様々なデザイン分野でのChatGPTの活用事例を紹介します。さらに、グラフィックデザイン、イラスト、ロゴデザインなど、多様なクリエイティブワークの効率化と品質向上に役立つポイントもご紹介します。AIがデザインの可能性を大きく広げる方法を、ぜひご覧ください。 目次 ChatGPT:デザイン制作の強力なツール


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。
