## 最近、Yan Shuicheng 教授のチームは Vitron ユニバーサル ピクセル レベル ビジョン Multimodal ラージを共同でリリースし、オープンソース化しました。言語モデル。
##プロジェクトのホームページとデモ:
https://www. php.cn/link/d8a3b2dde3181c8257e2e45efbd1e8ae紙のリンク: https://www.php.cn/ link/0ec5ba872f1179835987f9028c4cc4dfオープンソース コード: https://www.php.cn/link/26d6e896db39edc7d7bdd357d6984c95
##これは頑丈です一般的なビジュアルマルチモーダル大規模モデルは、視覚的な理解から視覚的な生成まで、低レベルから高レベルまでの一連の視覚タスクをサポートし、大規模言語モデル業界を長年悩ませてきた画像/イメージの問題を解決します。ビデオモデルのセグメンテーションは、静止画像と動的なビデオコンテンツの理解、生成、セグメンテーション、編集を包括的に統合するピクセルレベルの一般的なビジュアルマルチモーダルラージモデルを提供し、次世代の一般的なビジュアルラージの究極の形式の基礎を築きます。モデルは、大規模モデル向けの汎用人工知能 (AGI) に向けた新たな大きな一歩でもあります。
Vitron は、統一されたピクセルレベルのビジュアルマルチモーダル大規模言語モデルとして、低レベルから高レベルまでの視覚タスクを実現します。レベル 包括的なサポートにより、複雑な視覚的タスクを処理し、画像とビデオのコンテンツを理解して生成し、強力な視覚的理解とタスク実行機能を提供します。同時に、Vitron はユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を可能にし、より統一された視覚的なマルチモーダル ユニバーサル モデルに向けた大きな可能性を実証します。
Vitron 関連の論文、コード、デモはすべて公開されており、その包括性、技術革新、人間とコンピューターの相互作用、および応用が可能です。可能性 他の側面で示された独自の利点と可能性は、マルチモーダル大規模モデルの開発を促進するだけでなく、将来の視覚的大規模モデル研究に新しい方向性を提供します。
ビジュアルラージ言語モデル (LLM) の現在の開発は、満足のいく進歩を遂げています。コミュニティでは、より汎用的で強力なマルチモーダル大規模モデル (MLLM) を構築することが汎用人工知能 (AGI) を実現する唯一の方法であるとの考えが高まっています。ただし、マルチモーダルな一般モデル (ジェネラリスト) に移行するプロセスには、依然として重要な課題がいくつかあります。たとえば、作業の大部分は、ピクセルレベルのきめ細かい視覚的理解を達成できていないか、画像とビデオの統一されたサポートが不足しています。あるいは、さまざまな視覚的タスクのサポートが不十分であり、汎用的な大型モデルには程遠いです。このギャップを埋めるために、チームは最近共同で、オープンソースの Vitron ユニバーサル ピクセル レベル ビジュアル マルチモーダル大規模言語モデルをリリースしました。 Vitron は、静止画像と動的なビデオ コンテンツの包括的な理解、生成、セグメンテーション、編集を含む、低レベルから高レベルまで、視覚的な理解から視覚的な生成までの一連の視覚タスクをサポートします。
上の図は、4 つの主要な視覚関連タスクに対する Vitron の機能サポートと、その主な利点を包括的に示しています。 Vitron はまた、ユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を実現します。このプロジェクトは、より統合されたビジョン マルチモーダル一般モデルの大きな可能性を実証し、次世代の一般ビジョン大型モデルの究極の形の基礎を築きます。 Vitron 関連の論文、コード、デモはすべて公開されました。
統合された究極のマルチモーダル大規模言語モデル
近年、大規模言語モデル (LLM) は前例のない強力な機能を実証し、AGI への道であることが徐々に検証されてきました。テクニカルルート。マルチモーダル大規模言語モデル (MLLM) は、多くのコミュニティで急速に開発されており、視覚認識を実行できるモジュールを導入することにより、画像理解における多くの強力で優れた MLLM が開発されています。 BLIP-2、LLaVA、MiniGPT-4など。同時に、VideoChat、Video-LLaMA、Video-LLaVA など、ビデオの理解に焦点を当てた MLLM も立ち上げられています。
その後、研究者は主に 2 次元から MLLM の機能をさらに拡張しようとしました。一方で、研究者たちは、GLaMM などの視覚領域の位置特定 (地域接地) 機能を実現するために、画像についての大まかなインスタンス レベルの理解からピクセル レベルの詳細な理解に移行して、MLLM の視覚についての理解を深めようとしています。 、PixelLM、NExT-Chat、MiniGPT-v2など。
一方、研究者は、MLLM がサポートできる視覚機能を拡張しようとしています。 MLLM が入力視覚信号を理解するだけでなく、出力視覚コンテンツの生成をどのようにサポートするかを研究する研究も行われ始めています。例えば、GILL や Emu などの MLLM は画像コンテンツを柔軟に生成でき、GPT4Video や NExT-GPT はビデオ生成を実現します。
現在、人工知能コミュニティは、ビジュアル MLLM の将来の傾向が高度に統合され、より強力な機能の方向に必然的に発展するというコンセンサスに徐々に達しています。ただし、コミュニティによって多数の MLLM が開発されているにもかかわらず、明らかなギャップが依然として存在します。
1. ほとんどすべての既存のビジュアル LLM は、画像とビデオを別のエンティティとして扱い、画像のみまたはビデオのみをサポートします。
研究者らは、視覚には静止画像と動的なビデオの両方を含めるべきだと主張しています。どちらも視覚世界の一部です。コアコンポーネントは、次のようなものでも交換可能です。ほとんどのシナリオ。したがって、画像とビデオの両方のモダリティをサポートできる統合 MLLM フレームワークを構築する必要があります。
#2. 現在、MLLM による視覚機能のサポートはまだ不十分です。
ほとんどのモデルは、画像やビデオを理解するか、せいぜい生成することしかできません。研究者らは、将来の MLLM は、より広範囲の視覚タスクと操作をカバーし、すべての視覚関連タスクの統一サポートを実現し、「one for all」機能を実現できる、一般的な大規模言語モデルになるべきだと考えています。これは、実際のアプリケーション、特に一連の反復的でインタラクティブな操作を伴うことが多いビジュアル作成において非常に重要です。
たとえば、ユーザーはまずテキストから始めて、Vincent 図を使用してアイデアをビジュアル コンテンツに変換し、その後、さらにきめ細かい画像編集を通じて最初のアイデアを改良し、さらに詳細を追加します。 、画像からビデオを生成して動的なコンテンツを作成します。最後に、ビデオ編集などの反復操作を数回実行して、作成を完成させます。
上の表は、既存のビジュアル MLLM の機能を簡単に要約したものです (一部のモデルが代表的に含まれているだけであり、範囲は不完全です)。これらのギャップを埋めるために、チームは一般的なピクセルレベルのビジュアルMLLMであるVitronを提案しています。
Vitron システム アーキテクチャ: 3 つの主要モジュール
Vitron の全体的なフレームワークを次の図に示します。 Vitron は、既存の関連する MLLM と同様のアーキテクチャを採用しています。これには、1) フロントエンドのビジュアルおよび言語エンコーディング モジュール、2) 中央の LLM 理解およびテキスト生成モジュール、3) バックエンドのユーザー応答およびビジュアル コントロールのモジュール呼び出しの 3 つの主要な部分が含まれます。モジュール。
##フロントエンド モジュール: ビジュアル言語コーディング
画像とビデオのモーダル信号を認識し、きめ細かいユーザー視覚入力をサポートするために、Vitron は画像エンコーダ、ビデオ エンコーダ、領域ボックス/スケッチ エンコーダを統合しています。
センター モジュール: Core LLM
Vitron は Vicuna (7B、v1 .5) を使用します)、理解、推論、意思決定、および複数回のユーザー対話を可能にします。
バックエンド モジュール: ユーザー応答とモジュール呼び出し
Vitron はテキストを中央呼び出し戦略は、低レベルから高レベルまでの一連のビジュアル端末タスクをデコードして実行するための、いくつかの強力な既製 (SoTA) 画像およびビデオ処理モジュールを統合します。 Vitron は、テキスト中心のモジュール統合呼び出し方式を採用することで、システムの統合を実現するだけでなく、調整効率とシステムの拡張性も確保します。
Vitron モデル トレーニングの 3 段階
上記のアーキテクチャに基づいて、Vitron はトレーニングおよび微調整され、強力な視覚的理解とタスク実行機能が提供されます。モデルのトレーニングには主に 3 つの異なる段階があります。
ステップ 1: 視覚言語による全体的な調整学習。入力された視覚言語の特徴は統一された特徴空間にマッピングされるため、入力されたマルチモーダル信号を効果的に理解できるようになります。これは、システムが入ってくる視覚信号を全体として効果的に処理できるようにする、粗粒度の視覚と言語の調整学習です。研究者らは、既存の画像とキャプションのペア (CC3M)、ビデオとキャプションのペア (Webvid)、および領域とキャプションのペア (RefCOCO) のデータセットをトレーニングに使用しました。
ステップ 2: 時空間的な視覚的位置決め命令をきめ細かく微調整します。このシステムは外部モジュールを使用してさまざまなピクセル レベルの視覚タスクを実行しますが、LLM 自体は詳細な視覚トレーニングを受けていないため、システムが真のピクセル レベルの視覚的理解を達成することが妨げられます。この目的を達成するために、研究者らは、LLM が画像の詳細な空間性とビデオの特定の時間特性を特定できるようにする、詳細な時空間位置指示の微調整トレーニングを提案しました。
ステップ 3: 出力端はコマンド呼び出しに合わせて微調整されます。上で説明したトレーニングの第 2 段階により、LLM とフロントエンド エンコーダーにピクセル レベルで視覚を理解する能力が与えられます。この最後のステップであるコマンド呼び出しの命令微調整は、コマンドを正確に実行できる機能をシステムに装備し、LLM が適切で正しい呼び出しテキストを生成できるようにすることを目的としています。異なる端末ビジョンタスクには異なる呼び出しコマンドが必要になる可能性があるため、これを統一するために、研究者らは LLM の応答出力を次のような構造化テキスト形式に標準化することを提案しました:
1)ユーザー応答出力。ユーザー入力に直接応答します。
2) モジュール名。実行する機能またはタスクを示します。
3) コマンドを呼び出して、タスク モジュールのメタ命令をトリガーします。
4) ビデオ トラッキングやビジュアル編集など、バックエンド モジュールがこの情報を必要とする特定のタスクに必要な詳細なビジュアル機能を指定する領域 (オプションの出力)。領域の場合、LLM のピクセルレベルの理解に基づいて、座標によって記述された境界ボックスが出力されます。
評価実験
研究者は、22 の一般的なベンチマーク データ セットと 12 の画像/ビデオ ビジョン タスクに関する Vitron に基づいて、広範な実験評価を行いました。実行されました。 Vitron は、4 つの主要なビジュアル タスク グループ (セグメンテーション、理解、コンテンツ生成および編集) で強力な機能を発揮すると同時に、柔軟な人間とコンピューターの対話機能を備えています。以下は、いくつかの定性的な比較結果を代表的に示しています:
ビジョンセグメンテーション
画像参照画像セグメンテーションの結果
##詳細な視覚の理解
ビジョン生成
##テキストから画像への生成/テキストからビデオへの生成/画像からビデオへの生成
ビジョン編集
##画像編集結果
より詳細な実験内容と詳細については、論文を参照してください。
将来の方向性の見通し
全体として、この研究は、統合された視覚マルチモーダル一般大規模モデルを開発する大きな可能性を実証し、次世代視覚大規模モデルの研究のための新たな基盤を築きます。この方向への第一歩を踏み出します。チームが提案した Vitron システムは強力な一般的な機能を示していますが、それでも独自の制限があります。以下の研究者は、将来さらに研究される可能性のあるいくつかの方向性を列挙しています。
システム アーキテクチャ
Vitron システムは、外部ツールを呼び出すために依然としてセミジョイント、セミエージェント アプローチを使用しています。 。この呼び出しベースの方法は、潜在的なモジュールの拡張と置き換えを容易にしますが、このパイプライン構造のバックエンド モジュールがフロントエンド モジュールと LLM コア モジュールの共同学習に参加しないことも意味します。
この制限は、システム全体の学習には役に立ちません。つまり、さまざまなビジュアル タスクのパフォーマンスの上限がバックエンド モジュールによって制限されることになります。将来の作業では、さまざまなビジョン タスク モジュールを 1 つのユニットに統合する必要があります。単一の生成パラダイムを通じて生成および編集機能をサポートしながら、画像とビデオの統一された理解と出力を実現することは、依然として課題です。現在、有望なアプローチは、モジュール性永続的なトークン化を組み合わせて、さまざまな入出力およびさまざまなタスクにおけるシステムの統合を向上させることです。
ユーザー対話性
単一ビジョンタスクに焦点を当てた以前のモデルとの比較 (例: 、安定した拡散とSEEM)、Vitronは、業界のOpenAIのDALL-Eシリーズ、Midjourneyなどと同様に、LLMとユーザーの間の深いインタラクションを促進することを目指しています。最適なユーザー対話性を実現することが、この作業の中心的な目標の 1 つです。
Vitron は、既存の言語ベースの LLM を活用し、適切なディレクティブ調整と組み合わせて、一定レベルの対話性を実現します。たとえば、システムは、ユーザー入力がバックエンド モジュールの条件と正確に一致する必要がなく、ユーザーが入力する予期されるメッセージに柔軟に応答し、対応する視覚的な操作結果を生成できます。ただし、この作業にはインタラクティブ性の向上という点でまだ改善の余地が多く残されています。たとえば、クローズドソースの Midjourney システムからインスピレーションを得て、LLM が各ステップでどのような決定を下しても、システムはユーザーに積極的にフィードバックを提供して、そのアクションと決定がユーザーの意図と一致していることを確認する必要があります。
モーダル機能
##現在、Vitron は 7B Vicuna モデルを統合しています。言語、画像、ビデオを理解する能力には制限があります。将来の探求の方向性としては、ビジョンをより徹底的かつ包括的に理解するためにモデルの規模を拡大するなど、包括的なエンドツーエンドのシステムを開発することが考えられます。さらに、LLM が画像とビデオのモダリティの理解を完全に統一できるようにするための努力が必要です。
以上が厳水成が担当し、「ユニバーサルビジュアルマルチモーダル大型モデル」の究極の形を確立しました。統一理解・生成・分割・編集の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。 主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。 対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。 別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。 ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。 近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。 データ解釈 ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。 チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。 私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。 新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。 この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。 今のところ

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ホットトピック









