## 最近、Yan Shuicheng 教授のチームは Vitron ユニバーサル ピクセル レベル ビジョン Multimodal ラージを共同でリリースし、オープンソース化しました。言語モデル。
##プロジェクトのホームページとデモ:
https://www. php.cn/link/d8a3b2dde3181c8257e2e45efbd1e8ae紙のリンク: https://www.php.cn/ link/0ec5ba872f1179835987f9028c4cc4dfオープンソース コード: https://www.php.cn/link/26d6e896db39edc7d7bdd357d6984c95
##これは頑丈です一般的なビジュアルマルチモーダル大規模モデルは、視覚的な理解から視覚的な生成まで、低レベルから高レベルまでの一連の視覚タスクをサポートし、大規模言語モデル業界を長年悩ませてきた画像/イメージの問題を解決します。ビデオモデルのセグメンテーションは、静止画像と動的なビデオコンテンツの理解、生成、セグメンテーション、編集を包括的に統合するピクセルレベルの一般的なビジュアルマルチモーダルラージモデルを提供し、次世代の一般的なビジュアルラージの究極の形式の基礎を築きます。モデルは、大規模モデル向けの汎用人工知能 (AGI) に向けた新たな大きな一歩でもあります。
Vitron は、統一されたピクセルレベルのビジュアルマルチモーダル大規模言語モデルとして、低レベルから高レベルまでの視覚タスクを実現します。レベル 包括的なサポートにより、複雑な視覚的タスクを処理し、画像とビデオのコンテンツを理解して生成し、強力な視覚的理解とタスク実行機能を提供します。同時に、Vitron はユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を可能にし、より統一された視覚的なマルチモーダル ユニバーサル モデルに向けた大きな可能性を実証します。
Vitron 関連の論文、コード、デモはすべて公開されており、その包括性、技術革新、人間とコンピューターの相互作用、および応用が可能です。可能性 他の側面で示された独自の利点と可能性は、マルチモーダル大規模モデルの開発を促進するだけでなく、将来の視覚的大規模モデル研究に新しい方向性を提供します。
ビジュアルラージ言語モデル (LLM) の現在の開発は、満足のいく進歩を遂げています。コミュニティでは、より汎用的で強力なマルチモーダル大規模モデル (MLLM) を構築することが汎用人工知能 (AGI) を実現する唯一の方法であるとの考えが高まっています。ただし、マルチモーダルな一般モデル (ジェネラリスト) に移行するプロセスには、依然として重要な課題がいくつかあります。たとえば、作業の大部分は、ピクセルレベルのきめ細かい視覚的理解を達成できていないか、画像とビデオの統一されたサポートが不足しています。あるいは、さまざまな視覚的タスクのサポートが不十分であり、汎用的な大型モデルには程遠いです。このギャップを埋めるために、チームは最近共同で、オープンソースの Vitron ユニバーサル ピクセル レベル ビジュアル マルチモーダル大規模言語モデルをリリースしました。 Vitron は、静止画像と動的なビデオ コンテンツの包括的な理解、生成、セグメンテーション、編集を含む、低レベルから高レベルまで、視覚的な理解から視覚的な生成までの一連の視覚タスクをサポートします。
上の図は、4 つの主要な視覚関連タスクに対する Vitron の機能サポートと、その主な利点を包括的に示しています。 Vitron はまた、ユーザーとの継続的な操作をサポートし、柔軟な人間とコンピューターの対話を実現します。このプロジェクトは、より統合されたビジョン マルチモーダル一般モデルの大きな可能性を実証し、次世代の一般ビジョン大型モデルの究極の形の基礎を築きます。 Vitron 関連の論文、コード、デモはすべて公開されました。
統合された究極のマルチモーダル大規模言語モデル
近年、大規模言語モデル (LLM) は前例のない強力な機能を実証し、AGI への道であることが徐々に検証されてきました。テクニカルルート。マルチモーダル大規模言語モデル (MLLM) は、多くのコミュニティで急速に開発されており、視覚認識を実行できるモジュールを導入することにより、画像理解における多くの強力で優れた MLLM が開発されています。 BLIP-2、LLaVA、MiniGPT-4など。同時に、VideoChat、Video-LLaMA、Video-LLaVA など、ビデオの理解に焦点を当てた MLLM も立ち上げられています。
その後、研究者は主に 2 次元から MLLM の機能をさらに拡張しようとしました。一方で、研究者たちは、GLaMM などの視覚領域の位置特定 (地域接地) 機能を実現するために、画像についての大まかなインスタンス レベルの理解からピクセル レベルの詳細な理解に移行して、MLLM の視覚についての理解を深めようとしています。 、PixelLM、NExT-Chat、MiniGPT-v2など。
一方、研究者は、MLLM がサポートできる視覚機能を拡張しようとしています。 MLLM が入力視覚信号を理解するだけでなく、出力視覚コンテンツの生成をどのようにサポートするかを研究する研究も行われ始めています。例えば、GILL や Emu などの MLLM は画像コンテンツを柔軟に生成でき、GPT4Video や NExT-GPT はビデオ生成を実現します。
現在、人工知能コミュニティは、ビジュアル MLLM の将来の傾向が高度に統合され、より強力な機能の方向に必然的に発展するというコンセンサスに徐々に達しています。ただし、コミュニティによって多数の MLLM が開発されているにもかかわらず、明らかなギャップが依然として存在します。
1. ほとんどすべての既存のビジュアル LLM は、画像とビデオを別のエンティティとして扱い、画像のみまたはビデオのみをサポートします。
研究者らは、視覚には静止画像と動的なビデオの両方を含めるべきだと主張しています。どちらも視覚世界の一部です。コアコンポーネントは、次のようなものでも交換可能です。ほとんどのシナリオ。したがって、画像とビデオの両方のモダリティをサポートできる統合 MLLM フレームワークを構築する必要があります。
#2. 現在、MLLM による視覚機能のサポートはまだ不十分です。
ほとんどのモデルは、画像やビデオを理解するか、せいぜい生成することしかできません。研究者らは、将来の MLLM は、より広範囲の視覚タスクと操作をカバーし、すべての視覚関連タスクの統一サポートを実現し、「one for all」機能を実現できる、一般的な大規模言語モデルになるべきだと考えています。これは、実際のアプリケーション、特に一連の反復的でインタラクティブな操作を伴うことが多いビジュアル作成において非常に重要です。
たとえば、ユーザーはまずテキストから始めて、Vincent 図を使用してアイデアをビジュアル コンテンツに変換し、その後、さらにきめ細かい画像編集を通じて最初のアイデアを改良し、さらに詳細を追加します。 、画像からビデオを生成して動的なコンテンツを作成します。最後に、ビデオ編集などの反復操作を数回実行して、作成を完成させます。
上の表は、既存のビジュアル MLLM の機能を簡単に要約したものです (一部のモデルが代表的に含まれているだけであり、範囲は不完全です)。これらのギャップを埋めるために、チームは一般的なピクセルレベルのビジュアルMLLMであるVitronを提案しています。
Vitron システム アーキテクチャ: 3 つの主要モジュール
Vitron の全体的なフレームワークを次の図に示します。 Vitron は、既存の関連する MLLM と同様のアーキテクチャを採用しています。これには、1) フロントエンドのビジュアルおよび言語エンコーディング モジュール、2) 中央の LLM 理解およびテキスト生成モジュール、3) バックエンドのユーザー応答およびビジュアル コントロールのモジュール呼び出しの 3 つの主要な部分が含まれます。モジュール。
##フロントエンド モジュール: ビジュアル言語コーディング
画像とビデオのモーダル信号を認識し、きめ細かいユーザー視覚入力をサポートするために、Vitron は画像エンコーダ、ビデオ エンコーダ、領域ボックス/スケッチ エンコーダを統合しています。
センター モジュール: Core LLM
Vitron は Vicuna (7B、v1 .5) を使用します)、理解、推論、意思決定、および複数回のユーザー対話を可能にします。
バックエンド モジュール: ユーザー応答とモジュール呼び出し
Vitron はテキストを中央呼び出し戦略は、低レベルから高レベルまでの一連のビジュアル端末タスクをデコードして実行するための、いくつかの強力な既製 (SoTA) 画像およびビデオ処理モジュールを統合します。 Vitron は、テキスト中心のモジュール統合呼び出し方式を採用することで、システムの統合を実現するだけでなく、調整効率とシステムの拡張性も確保します。
Vitron モデル トレーニングの 3 段階
上記のアーキテクチャに基づいて、Vitron はトレーニングおよび微調整され、強力な視覚的理解とタスク実行機能が提供されます。モデルのトレーニングには主に 3 つの異なる段階があります。
ステップ 1: 視覚言語による全体的な調整学習。入力された視覚言語の特徴は統一された特徴空間にマッピングされるため、入力されたマルチモーダル信号を効果的に理解できるようになります。これは、システムが入ってくる視覚信号を全体として効果的に処理できるようにする、粗粒度の視覚と言語の調整学習です。研究者らは、既存の画像とキャプションのペア (CC3M)、ビデオとキャプションのペア (Webvid)、および領域とキャプションのペア (RefCOCO) のデータセットをトレーニングに使用しました。
ステップ 2: 時空間的な視覚的位置決め命令をきめ細かく微調整します。このシステムは外部モジュールを使用してさまざまなピクセル レベルの視覚タスクを実行しますが、LLM 自体は詳細な視覚トレーニングを受けていないため、システムが真のピクセル レベルの視覚的理解を達成することが妨げられます。この目的を達成するために、研究者らは、LLM が画像の詳細な空間性とビデオの特定の時間特性を特定できるようにする、詳細な時空間位置指示の微調整トレーニングを提案しました。
ステップ 3: 出力端はコマンド呼び出しに合わせて微調整されます。上で説明したトレーニングの第 2 段階により、LLM とフロントエンド エンコーダーにピクセル レベルで視覚を理解する能力が与えられます。この最後のステップであるコマンド呼び出しの命令微調整は、コマンドを正確に実行できる機能をシステムに装備し、LLM が適切で正しい呼び出しテキストを生成できるようにすることを目的としています。異なる端末ビジョンタスクには異なる呼び出しコマンドが必要になる可能性があるため、これを統一するために、研究者らは LLM の応答出力を次のような構造化テキスト形式に標準化することを提案しました:
1)ユーザー応答出力。ユーザー入力に直接応答します。
2) モジュール名。実行する機能またはタスクを示します。
3) コマンドを呼び出して、タスク モジュールのメタ命令をトリガーします。
4) ビデオ トラッキングやビジュアル編集など、バックエンド モジュールがこの情報を必要とする特定のタスクに必要な詳細なビジュアル機能を指定する領域 (オプションの出力)。領域の場合、LLM のピクセルレベルの理解に基づいて、座標によって記述された境界ボックスが出力されます。
評価実験
研究者は、22 の一般的なベンチマーク データ セットと 12 の画像/ビデオ ビジョン タスクに関する Vitron に基づいて、広範な実験評価を行いました。実行されました。 Vitron は、4 つの主要なビジュアル タスク グループ (セグメンテーション、理解、コンテンツ生成および編集) で強力な機能を発揮すると同時に、柔軟な人間とコンピューターの対話機能を備えています。以下は、いくつかの定性的な比較結果を代表的に示しています:
ビジョンセグメンテーション
画像参照画像セグメンテーションの結果
##詳細な視覚の理解
ビジョン生成
##テキストから画像への生成/テキストからビデオへの生成/画像からビデオへの生成
ビジョン編集
##画像編集結果
より詳細な実験内容と詳細については、論文を参照してください。
将来の方向性の見通し
全体として、この研究は、統合された視覚マルチモーダル一般大規模モデルを開発する大きな可能性を実証し、次世代視覚大規模モデルの研究のための新たな基盤を築きます。この方向への第一歩を踏み出します。チームが提案した Vitron システムは強力な一般的な機能を示していますが、それでも独自の制限があります。以下の研究者は、将来さらに研究される可能性のあるいくつかの方向性を列挙しています。
システム アーキテクチャ
Vitron システムは、外部ツールを呼び出すために依然としてセミジョイント、セミエージェント アプローチを使用しています。 。この呼び出しベースの方法は、潜在的なモジュールの拡張と置き換えを容易にしますが、このパイプライン構造のバックエンド モジュールがフロントエンド モジュールと LLM コア モジュールの共同学習に参加しないことも意味します。
この制限は、システム全体の学習には役に立ちません。つまり、さまざまなビジュアル タスクのパフォーマンスの上限がバックエンド モジュールによって制限されることになります。将来の作業では、さまざまなビジョン タスク モジュールを 1 つのユニットに統合する必要があります。単一の生成パラダイムを通じて生成および編集機能をサポートしながら、画像とビデオの統一された理解と出力を実現することは、依然として課題です。現在、有望なアプローチは、モジュール性永続的なトークン化を組み合わせて、さまざまな入出力およびさまざまなタスクにおけるシステムの統合を向上させることです。
ユーザー対話性
単一ビジョンタスクに焦点を当てた以前のモデルとの比較 (例: 、安定した拡散とSEEM)、Vitronは、業界のOpenAIのDALL-Eシリーズ、Midjourneyなどと同様に、LLMとユーザーの間の深いインタラクションを促進することを目指しています。最適なユーザー対話性を実現することが、この作業の中心的な目標の 1 つです。
Vitron は、既存の言語ベースの LLM を活用し、適切なディレクティブ調整と組み合わせて、一定レベルの対話性を実現します。たとえば、システムは、ユーザー入力がバックエンド モジュールの条件と正確に一致する必要がなく、ユーザーが入力する予期されるメッセージに柔軟に応答し、対応する視覚的な操作結果を生成できます。ただし、この作業にはインタラクティブ性の向上という点でまだ改善の余地が多く残されています。たとえば、クローズドソースの Midjourney システムからインスピレーションを得て、LLM が各ステップでどのような決定を下しても、システムはユーザーに積極的にフィードバックを提供して、そのアクションと決定がユーザーの意図と一致していることを確認する必要があります。
モーダル機能
##現在、Vitron は 7B Vicuna モデルを統合しています。言語、画像、ビデオを理解する能力には制限があります。将来の探求の方向性としては、ビジョンをより徹底的かつ包括的に理解するためにモデルの規模を拡大するなど、包括的なエンドツーエンドのシステムを開発することが考えられます。さらに、LLM が画像とビデオのモダリティの理解を完全に統一できるようにするための努力が必要です。
以上が厳水成が担当し、「ユニバーサルビジュアルマルチモーダル大型モデル」の究極の形を確立しました。統一理解・生成・分割・編集の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン
