ホームページ >テクノロジー周辺機器 >AI >マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

WBOY
WBOY転載
2024-01-29 09:15:261004ブラウズ

「若者初のマルチモーダル大型モデル」Vary-toyが登場!

モデル サイズは 2B 未満で、コンシューマー グレードのグラフィック カードでトレーニングでき、GTX1080ti 8G の古いグラフィック カードでも簡単に実行できます。

ドキュメント画像を Markdown 形式に変換したいですか?以前は、テキスト認識、レイアウトの検出と並べ替え、数式テーブルの処理、テキストのクリーニングなどの複数の手順が必要でした。

これで必要なコマンドは 1 つだけです:

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

中国語でも英語でも、画像内のテキストの大部分を抽出できます。数分で:

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

画像上の物体検出でも特定の座標を得ることができます:

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

この研究は共同で提案されましたMegvii、国立科学技術大学、華中科学技術大学の研究者による。

報告書によると、Vary-toy は小規模ではありますが、LVLM (大規模視覚言語モデル) に関する現在の主流研究のほぼすべての機能をカバーしています。: 文書 OCR 認識 (文書OCR )、視覚的な位置決め(視覚的なグラウンディング)、画像の説明(画像キャプション)、視覚的な質問応答(VQA)

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

現在、Vary-toy のコードとモデルはオープンソースであり、試用できるオンライン デモが用意されています。

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

ネチズンは関心を示しましたが、老·GTX1080 にも注目し、次のように感じました。 ##「縮小版」 Vary

実際、Vary チームは昨年 12 月には Vary の最初の研究成果「Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models」を発表しました。 マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

研究者らは、高密度の知覚能力におけるCLIP視覚語彙の欠点を指摘し、シンプルで効果的な語彙拡張スキームを使用して新しいOCRパラダイムを提供しました。

Vary はリリース以来広く注目を集めており、現在、Github

には 1.2k のスターが付いていますが、リソースが限られているため、多くの人が実行できません。

オープンソース化され、優れたパフォーマンスを備えた「小型」VLM が比較的少ないことを考慮して、チームは「若者初のマルチモード大型モデル」として知られる Vary-toy を新たにリリースしました。

Vary と比較すると、Vary-toy は小さいだけでなく、より強力な視覚語彙

を訓練します。新しい語彙はモデルをドキュメント レベルの OCR に制限しなくなりました。より普遍的で包括的な視覚語彙。ドキュメント レベルの OCR だけでなく、一般的な視覚ターゲットの検出も実行できます。

それでは、これはどのように行われるのでしょうか?

Vary-toy のモデル構造と学習プロセスは下図に示すとおりであり、学習は大きく 2 つの段階に分かれています。

まず、最初の段階では、Vary-tiny 構造を使用して、元の Vary よりも優れたビジュアル語彙を事前にトレーニングします。オリジナルの Vary の問題を解決します。Vary はドキュメント レベルの OCR にのみ使用するため、ネットワーク容量が無駄になり、SAM 事前トレーニングの利点が十分に活用されないという問題があります。

次に、第 2 段階では、第 1 段階でトレーニングされた視覚語彙が、マルチタスク トレーニング/SFT の最終構造にマージされます。

ご存知のとおり、包括的な機能を備えた VLM を作成するには、優れたデータ比率が不可欠です。 マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

したがって、事前トレーニング段階で、Vary-toy は 5 種類のタスクのデータを使用して対話を構築しました。データの割合とプロンプトの例は、次の図に示すとおりです。

#SFT ステージでは、LLaVA-80K データのみが使用されます。技術的な詳細については、Vary-toy の技術レポートをご覧ください。

実験テスト結果

DocVQA、ChartQA、RefCOCO、MMVet の 4 つのベンチマーク テストにおける Vary-toy のスコアは次のとおりです。

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

Vary-toy は、DocVQA で 65.6% の ANLS、ChartQA で 59.1%、RefCOCO で 88.1% の精度を達成できます:

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

MMVet の精度は 29% に達し、ベンチマーク スコアや視覚化効果の点でも、2B 未満の Vary-toy は、一部の人気の 7B モデルのパフォーマンスにさえ匹敵します。

マルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行

プロジェクト リンク:
[1]https://arxiv.org/abs/2401.12503

[3] https://varytoy.github.io/

以上がマルチモーダルな大型モデルはオープンソースでオンラインの若者に好まれています: 1080Ti を簡単に実行の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。