


現在、GPT-4 Vision は言語理解と視覚処理において驚くべき能力を示しています。
ただし、パフォーマンスを犠牲にすることなく、コスト効率の高い代替手段を探している人にとって、オープンソースは無限の可能性を秘めた選択肢となります。
Youssef Hosni は外国の開発者で、GPT-4V に代わる絶対にアクセシビリティが保証された 3 つのオープンソースの代替案を提供してくれました。
3 つのオープンソース視覚言語モデル LLaVa、CogAgent、BakLLaVA は視覚処理の分野で大きな可能性を秘めており、私たちが深く理解する価値があります。これらのモデルの研究開発により、より効率的で正確な視覚処理ソリューションが提供されます。これらのモデルを使用することで、画像認識、ターゲット検出、画像生成などのタスクの精度と効率を向上させ、視覚処理分野の研究と応用に洞察をもたらすことができます。 ##LLaVA は、ウィスコンシン大学マディソン校、Microsoft Research、コロンビア大学の研究者が共同で開発したマルチモーダル大規模モデルです。初期バージョンは4月にリリースされました。
ビジュアル エンコーダーと Vicuna (一般的な視覚と言語の理解のため) を組み合わせて、優れたチャット機能を実証します。
10月にアップグレードされたLLaVA-1.5は、マルチモーダルGPT-4に近いパフォーマンスを示し、サイエンスQAデータで良好なパフォーマンスを示しました。最先端の結果 (SOTA) が達成されました。
写真13B モデルのトレーニングには 8 台の A100 のみが必要で、1 日以内に完了できます。
写真ご覧のとおり、LLaVA はあらゆる種類の質問に対応でき、生成される回答は包括的かつ論理的です。
LLaVA は、GPT-4 のレベルに近いマルチモーダル機能を実証しており、ビジュアル チャットにおける GPT-4 相対スコアは 85% です。
推論の質問と回答の観点からは、LLaVA は新しい SoTA-92.53% にも到達し、マルチモーダルな思考チェーンを打ち破りました。
視覚的推理という点では、そのパフォーマンスは非常に目を引きます。
写真
写真
質問: 「事実誤認がある場合は、その点を指摘してください」そうでない場合は、砂漠で何が起こっているのか教えてください。」 LLaVA はまだ完全に正しく答えることができません。
アップグレードされた LLaVA-1.5 は完璧な答えを与えてくれました:「この写真には砂漠はまったくありません。ヤシの木のビーチ、街のスカイライン、そして大きな水域があります。」
また、LLaVA-1.5 では画像から情報を抽出し、JSON 形式で出力するなど、必要な形式に応じて回答することもできます。
写真 LLaVA-1.5 に果物や野菜がいっぱいの写真を与えると、その写真を GPT-4V のような JSON に変換できます。
写真
下の写真は何を意味しますか?
写真
これはノーラン監督の「インセプション」に基づいた簡略化されたスケッチです。難易度を上げるために、キャラクターの名前は仮名に変更されています. .
LLaVA-1.5 は驚くべき答えを出しました:「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルが示されており、各レベルは線で表されています。この絵は次のように書かれています。紙はテーブルの上に置かれます。」
写真
料理の写真が LLaVA-1.5 に直接送信され、それが渡されます。すぐにレシピを生成します。
写真
さらに、LLaVA-1.5 は「脱獄」せずに検証コードを認識できます。
写真
写真に写っているコインの種類を検出することもできます。
写真
特に印象的なのは、LLaVA-1.5 が写真の犬の品種も教えてくれるということです。
写真
一部のネチズンは、Bing を使用して、晴れた夏のビーチで冬用のコートを着た男性の写真を生成し、LLaVA 1.5 に指摘するよう依頼しました。写真にある問題は何ですか?その目は非常に鋭いです -
これは加工またはフォトショップで加工された写真で、男性がジャケットを着てビーチに立っています。男がコートを開けると、太陽が彼を照らした。この画像の問題は、実際のビーチのシーンではないことです。その男は実際にはビーチに立っていませんでしたし、太陽は彼を照らしていませんでした。この画像はビーチのシーンのように見せるためにフォトショップで加工されていますが、実際のシーンを表しているわけではありません。
写真
OCR認識、LLaVAのパフォーマンスも非常に強力です。
#写真
写真
写真
写真
CogAgent-18B は、9 つの従来のクロスモーダル ベンチマーク (VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む) で最先端の一般的なパフォーマンスを実現します。
AITW や Mind2Web などのグラフィカル ユーザー インターフェイス操作データセットにおいて、既存のモデルよりも大幅に優れたパフォーマンスを発揮します。
CogVLM の既存のすべての機能 (視覚化されたマルチターン ダイアログ、視覚的なグラウンディング) に加えて、CogAgent.NET はさらに多くの機能も提供します。
1. 高解像度の視覚入力と質問に答える対話をサポートします。 1120×1120の超高解像度画像入力に対応。
2. エージェントを視覚化し、グラフィカル ユーザー インターフェイスのスクリーンショット上で特定のタスクの計画、次のアクション、および特定の操作を座標とともに返すことができます。
3. GUI 関連の質問応答機能が強化され、Web ページ、PC アプリケーション、モバイル アプリケーションなど、あらゆる GUI のスクリーンショットに関連する問題に対応できるようになりました。
4. 事前トレーニングと微調整を改善することで、OCR 関連タスクの機能が強化されます。
グラフィカル ユーザー インターフェイス エージェント (GUI エージェント)
CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。
写真
は、電話のディスプレイを明るいモードに調整するのに役立ちます。
写真
CogAgent は、このツイートの「いいね!」の数と人気の理由を分析し、「素晴らしい」と返信することもできます。操作する。
写真
フロリダ大学からハリウッドまでの最速ルートを選択するにはどうすればよいですか?午前 8 時に開始した場合、どのくらい時間がかかるかをどのように見積もりますか? CogAgent はすべてに答えることができます。
画像
特定の件名を設定して、CogAgent が指定したメールボックスに電子メールを送信できるようにすることができます。
写真
「You raise me up」という曲を聴きたい場合は、CogAgent でステップごとにリストを表示できます。
写真
CogAgent は、「原神」のシーンを正確に記述し、テレポート ポイントへの行き方をガイドすることもできます。
写真
BakLLaVA
BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B 基本モデルです。
最初のリリースでは、Mistral 7B ベース モデルは複数のベンチマークで Llama 2 13B を上回りました。
彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために常に更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)
BakLLaVA-1 は完全にオープンソースですが、LLaVA のコーパスを含む一部のデータに基づいてトレーニングされているため、商用利用は許可されていません。
BakLLaVA 2 は、現在の LLaVa メソッドを超える、より大規模なデータ セットと更新されたアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限を取り除き、商用利用が可能です。
参考:
https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5
以上が清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

作者:楚怡、凯衡等近日,美团视觉智能部研发了一款致力于工业应用的目标检测框架YOLOv6,能够同时专注于检测的精度和推理效率。在研发过程中,视觉智能部不断进行了探索和优化,同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集COCO上的实验结果显示,YOLOv6在检测精度和速度方面均超越其他同体量的算法,同时支持多种不同平台的部署,极大简化工程部署时的适配工作。特此开源,希望能帮助到更多的同学。1.概述YOLOv6是美团视觉智能部研发的一款目标检测框架,致力于工业应用。

作为一个技术博主,了不起比较喜欢各种折腾,之前给大家介绍过ChatGPT接入微信,钉钉和知识星球(如果没看过的可以翻翻前面的文章),最近再看开源项目的时候,发现了一个ChatGPTWebUI项目。想着刚好之前没有将ChatGPT接入过WebUI,有了这个开源项目可以拿来使用,真是不错,下面是实操的安装步骤,分享给大家。安装官方在Github的项目文档上提供了很多中的安装方式,包括手动安装,docker部署,以及远程部署等方法,了不起在选择部署方式的时候,一开始为了简单想着

5月2日消息,目前大多数AI聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢?一个名为MLCLLM的全新开源项目已在GitHub上线,完全本地运行无需联网,甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称:“MLCLLM是一种通用解决方案,它允许将任何语言模型本地部署在一组不同的硬件后端和本地应用程序上,此外还有一个高效的框架,供每个人进一步优化自己用例的模型性能。一切都在本地运行,无需服务器支持,并通过手机和笔

深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。但海量的用户和业务数据,频繁地迭代更新需求,以及高昂的训练成本,都对 DLRM 训练提出了严峻挑战。在 DLRM 中,需要先在嵌入表(EmbeddingBags)中进行查表(lookup),再完成下游计算。嵌入表常常贡献 DLRM 中 99% 以上的内存需求,却只贡献 1% 的计算量。借助于 GPU 片上高速内存(High Bandwidth

在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅

刚刚,哥伦比亚大学系统生物学助理教授 Mohammed AlQuraishi 在推特上宣布,他们从头训练了一个名为 OpenFold 的模型,该模型是 AlphaFold2 的可训练 PyTorch 复现版本。Mohammed AlQuraishi 还表示,这是第一个大众可用的 AlphaFold2 复现。AlphaFold2 可以周期性地以原子精度预测蛋白质结构,在技术上利用多序列对齐和深度学习算法设计,并结合关于蛋白质结构的物理和生物学知识提升了预测效果。它实现了 2/3 蛋白质结构预测的卓

自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。相比之下,StableDiffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。最近StabilityAI的官宣,正在研发的StableDiffusionXL开始面向公众测试,目前可以在Clipdrop平台免费试用。试用链接:https://clipdrop.co/stable-diff

在自动驾驶技术不断迭代的当下,车辆的行为和轨迹预测对高效、安全驾驶有着极为重要的意义。动力学模型推演、可达性分析等传统的轨迹预测的方法虽然有着形式明晰、可解释性强的优点,但在复杂的交通环境中,其对于环境和物体交互的建模能力较为有限。因此,近年来大量研究和应用都基于各种深度学习方法(例如 LSTM、CNN、Transformer、GNN 等),各类数据集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也纷纷涌现


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
