「若者初のマルチモーダル大型モデル」Vary-toyが登場!
モデル サイズは 2B 未満で、コンシューマー グレードのグラフィック カードでトレーニングでき、GTX1080ti 8G の古いグラフィック カードでも簡単に実行できます。
ドキュメント画像を Markdown 形式に変換したいですか?以前は、テキスト認識、レイアウトの検出と並べ替え、数式テーブルの処理、テキストのクリーニングなどの複数の手順が必要でした。
これで必要なコマンドは 1 つだけです:
中国語でも英語でも、画像内のテキストの大部分を抽出できます。数分で:
画像上の物体検出でも特定の座標を得ることができます:
この研究は共同で提案されましたMegvii、国立科学技術大学、華中科学技術大学の研究者による。
報告書によると、Vary-toy は小規模ではありますが、LVLM (大規模視覚言語モデル) に関する現在の主流研究のほぼすべての機能をカバーしています。: 文書 OCR 認識 (文書OCR )、視覚的な位置決め(視覚的なグラウンディング)、画像の説明(画像キャプション)、視覚的な質問応答(VQA)。
現在、Vary-toy のコードとモデルはオープンソースであり、試用できるオンライン デモが用意されています。
ネチズンは関心を示しましたが、老·GTX1080 にも注目し、次のように感じました。 ##「縮小版」 Vary
実際、Vary チームは昨年 12 月には Vary の最初の研究成果「Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models」を発表しました。
Vary と比較すると、Vary-toy は小さいだけでなく、より強力な視覚語彙
を訓練します。新しい語彙はモデルをドキュメント レベルの OCR に制限しなくなりました。より普遍的で包括的な視覚語彙。ドキュメント レベルの OCR だけでなく、一般的な視覚ターゲットの検出も実行できます。 それでは、これはどのように行われるのでしょうか?Vary-toy のモデル構造と学習プロセスは下図に示すとおりであり、学習は大きく 2 つの段階に分かれています。
まず、最初の段階では、Vary-tiny 構造を使用して、元の Vary よりも優れたビジュアル語彙を事前にトレーニングします。オリジナルの Vary の問題を解決します。Vary はドキュメント レベルの OCR にのみ使用するため、ネットワーク容量が無駄になり、SAM 事前トレーニングの利点が十分に活用されないという問題があります。
次に、第 2 段階では、第 1 段階でトレーニングされた視覚語彙が、マルチタスク トレーニング/SFT の最終構造にマージされます。
ご存知のとおり、包括的な機能を備えた VLM を作成するには、優れたデータ比率が不可欠です。
Vary-toy は、DocVQA で 65.6% の ANLS、ChartQA で 59.1%、RefCOCO で 88.1% の精度を達成できます:
MMVet の精度は 29% に達し、ベンチマーク スコアや視覚化効果の点でも、2B 未満の Vary-toy は、一部の人気の 7B モデルのパフォーマンスにさえ匹敵します。
プロジェクト リンク:
[1]https://arxiv.org/abs/2401.12503
[3] https://varytoy.github.io/
以上がマルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









