検索
ホームページテクノロジー周辺機器AI清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

現在、GPT-4 Vision は言語理解と視覚処理において驚くべき能力を示しています。

ただし、パフォーマンスを犠牲にすることなく、コスト効率の高い代替手段を探している人にとって、オープンソースは無限の可能性を秘めた選択肢となります。

Youssef Hosni は外国の開発者で、GPT-4V に代わる絶対にアクセシビリティが保証された 3 つのオープンソースの代替案を提供してくれました。

3 つのオープンソース視覚言語モデル LLaVa、CogAgent、BakLLaVA は視覚処理の分野で大きな可能性を秘めており、私たちが深く理解する価値があります。これらのモデルの研究開発により、より効率的で正確な視覚処理ソリューションが提供されます。これらのモデルを使用することで、画像認識、ターゲット検出、画像生成などのタスクの精度と効率を向上させ、視覚処理分野の研究と応用に洞察をもたらすことができます。 ##LLaVA は、ウィスコンシン大学マディソン校、Microsoft Research、コロンビア大学の研究者が共同で開発したマルチモーダル大規模モデルです。初期バージョンは4月にリリースされました。

ビジュアル エンコーダーと Vicuna (一般的な視覚と言語の理解のため) を組み合わせて、優れたチャット機能を実証します。 清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

10月にアップグレードされたLLaVA-1.5は、マルチモーダルGPT-4に近いパフォーマンスを示し、サイエンスQAデータで良好なパフォーマンスを示しました。最先端の結果 (SOTA) が達成されました。

写真清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす13B モデルのトレーニングには 8 台の A100 のみが必要で、1 日以内に完了できます。

写真清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらすご覧のとおり、LLaVA はあらゆる種類の質問に対応でき、生成される回答は包括的かつ論理的です。

LLaVA は、GPT-4 のレベルに近いマルチモーダル機能を実証しており、ビジュアル チャットにおける GPT-4 相対スコアは 85% です。

推論の質問と回答の観点からは、LLaVA は新しい SoTA-92.53% にも到達し、マルチモーダルな思考チェーンを打ち破りました。 清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

視覚的推理という点では、そのパフォーマンスは非常に目を引きます。

写真清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす質問: 「事実誤認がある場合は、その点を指摘してください」そうでない場合は、砂漠で何が起こっているのか教えてください。」 LLaVA はまだ完全に正しく答えることができません。

アップグレードされた LLaVA-1.5 は完璧な答えを与えてくれました:「この写真には砂漠はまったくありません。ヤシの木のビーチ、街のスカイライン、そして大きな水域があります。」 清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

Picture

また、LLaVA-1.5 では画像から情報を抽出し、JSON 形式で出力するなど、必要な形式に応じて回答することもできます。

写真清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす LLaVA-1.5 に果物や野菜がいっぱいの写真を与えると、その写真を GPT-4V のような JSON に変換できます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

下の写真は何を意味しますか?

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

これはノーラン監督の「インセプション」に基づいた簡略化されたスケッチです。難易度を上げるために、キャラクターの名前は仮名に変更されています. .

LLaVA-1.5 は驚くべき答えを出しました:「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルが示されており、各レベルは線で表されています。この絵は次のように書かれています。紙はテーブルの上に置かれます。」

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

料理の写真が LLaVA-1.5 に直接送信され、それが渡されます。すぐにレシピを生成します。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

さらに、LLaVA-1.5 は「脱獄」せずに検証コードを認識できます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

写真に写っているコインの種類を検出することもできます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

特に印象的なのは、LLaVA-1.5 が写真の犬の品種も教えてくれるということです。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

一部のネチズンは、Bing を使用して、晴れた夏のビーチで冬用のコートを着た男性の写真を生成し、LLaVA 1.5 に指摘するよう依頼しました。写真にある問題は何ですか?その目は非常に鋭いです -

これは加工またはフォトショップで加工された写真で、男性がジャケットを着てビーチに立っています。男がコートを開けると、太陽が彼を照らした。この画像の問題は、実際のビーチのシーンではないことです。その男は実際にはビーチに立っていませんでしたし、太陽は彼を照らしていませんでした。この画像はビーチのシーンのように見せるためにフォトショップで加工されていますが、実際のシーンを表しているわけではありません。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

OCR認識、LLaVAのパフォーマンスも非常に強力です。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす#写真

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

CogAgent

CogAgent は、清華大学の研究者である CogVLM に基づいて改良されたオープンソースのビジュアル言語モデルです。

CogAgent-18B には、110 億の視覚パラメータと 70 億の言語パラメータがあります。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

論文アドレス: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B は、9 つ​​の従来のクロスモーダル ベンチマーク (VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む) で最先端の一般的なパフォーマンスを実現します。

AITW や Mind2Web などのグラフィカル ユーザー インターフェイス操作データセットにおいて、既存のモデルよりも大幅に優れたパフォーマンスを発揮します。

CogVLM の既存のすべての機能 (視覚化されたマルチターン ダイアログ、視覚的なグラウンディング) に加えて、CogAgent.NET はさらに多くの機能も提供します。

1. 高解像度の視覚入力と質問に答える対話をサポートします。 1120×1120の超高解像度画像入力に対応。

2. エージェントを視覚化し、グラフィカル ユーザー インターフェイスのスクリーンショット上で特定のタスクの計画、次のアクション、および特定の操作を座標とともに返すことができます。

3. GUI 関連の質問応答機能が強化され、Web ページ、PC アプリケーション、モバイル アプリケーションなど、あらゆる GUI のスクリーンショットに関連する問題に対応できるようになりました。

4. 事前トレーニングと微調整を改善することで、OCR 関連タスクの機能が強化されます。

グラフィカル ユーザー インターフェイス エージェント (GUI エージェント)

CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

は、電話のディスプレイを明るいモードに調整するのに役立ちます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

CogAgent は、このツイートの「いいね!」の数と人気の理由を分析し、「素晴らしい」と返信することもできます。操作する。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

フロリダ大学からハリウッドまでの最速ルートを選択するにはどうすればよいですか?午前 8 時に開始した場合、どのくらい時間がかかるかをどのように見積もりますか? CogAgent はすべてに答えることができます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす画像

特定の件名を設定して、CogAgent が指定したメールボックスに電子メールを送信できるようにすることができます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

「You raise me up」という曲を聴きたい場合は、CogAgent でステップごとにリストを表示できます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

CogAgent は、「原神」のシーンを正確に記述し、テレポート ポイントへの行き方をガイドすることもできます。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

BakLLaVA

BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B 基本モデルです。

最初のリリースでは、Mistral 7B ベース モデルは複数のベンチマークで Llama 2 13B を上回りました。

彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために常に更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 は完全にオープンソースですが、LLaVA のコーパスを含む一部のデータに基づいてトレーニングされているため、商用利用は許可されていません。

BakLLaVA 2 は、現在の LLaVa メソッドを超える、より大規模なデータ セットと更新されたアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限を取り除き、商用利用が可能です。

参考:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

以上が清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
最高の迅速なエンジニアリング技術の最新の年次編集最高の迅速なエンジニアリング技術の最新の年次編集Apr 10, 2025 am 11:22 AM

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIヨーロッパのAI大陸行動計画:GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。 重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか?Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ:企業の明確な勝利 新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売:Shopify CEOのマニフェスト従業員へのAI戦略の販売:Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますIBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム:AIを強化した事業運営の統合 先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築(2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼する5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します! これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。 ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますAIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。 内部スヌーピング:人類の解釈可能性研究 人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。 誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますDragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing:企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。 これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター