Megvii のオープンソース マルチモーダル大規模モデルは、中国語と英語をカバーするドキュメント レベルの OCR をサポートしています。
ドキュメント画像をMarkdown形式に変換したいですか?
以前は、このタスクにはテキスト認識、レイアウトの検出と並べ替え、数式テーブルの処理、テキストのクリーニングなどの複数の手順が必要でしたが、今回は 1 つの手順だけで済みます。文コマンド、
マルチモーダル大規模モデルVary はエンドツーエンドの結果を直接出力します:
Pictureかどうか中国語または英語で書かれた大きな段落です テキスト:
式の文書画像も含まれています
Picture
またはモバイル ページのスクリーンショット:
変換することもできます画像のテーブルを
Picture
もちろん、マルチモードとして大規模なスケール モデル、ユニバーサル機能の維持は不可欠
Picture
Vary は大きな可能性と非常に高い上限を示しています。OCR は長いパイプラインを必要とせず、直接出力できますプロンプトは、Latex、Word、Markdown などのさまざまな形式を出力します。 このアーキテクチャでは、強力な言語優先順位を使用して、「レバレッジ」や「デュポール」など、OCR でタイプミスが起こりやすい単語を回避できます。あいまいな文書の場合は、事前言語の助けを借りて、より強力な OCR 効果を達成することも期待されています。
多くのネチズンの注目を集めたこのプロジェクトは、開始されるとすぐに広範な議論を引き起こしました。これを見たネチズンの一人は「本当にすごい!」と叫びました。
写真
この効果はどのようにして達成されるのでしょうか? 大規模モデルからのインスピレーション
現在、ほとんどすべての大規模なマルチモーダル モデルは、ビジョン エンコーダまたはビジュアル ボキャブラリとして CLIP を使用しています。実際、4 億個の画像とテキストのペアでトレーニングされた CLIP は、強力な視覚的テキスト配置機能を備えており、ほとんどの日常業務での画像エンコーディングをカバーできます。
しかし、文書レベルの OCR やチャートの理解など、高密度できめの細かい認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかな
コーディングの非効率性と語彙不足を示します質問。
大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模モデルにとっては「外国語」) に移行する場合、中国語をエンコードする元の語彙は非効率であるため、テキスト語彙を次のように拡張する必要があります。より良いパフォーマンスを達成し、良い結果をもたらします。 研究チームはこれに触発されました。まさにこの機能のためです。
CLIP 視覚語彙に基づくマルチモーダル大規模モデルも同じ問題に直面し、「外国語画像」に遭遇します。 」、テキストがびっしりと詰まった紙のページなど、画像を効率的にトークン化することは困難です。
Vary は、この問題を解決するために提供されたソリューションです。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます
##Picture既製の CLIP ボキャブラリを直接使用する既存の方法とは異なり、Vary は 2 つの段階に分かれています。 最初に、小さなものだけを使用します。 デコーダ ネットワークは、自己回帰的な方法で強力な新しいビジュアル ボキャブラリを生成します。 次に、第 2 段階では、新しい語彙と CLIP 語彙が融合されて LVLM を効率的にトレーニングし、ドキュメント チャートやその他のデータでトレーニングされた新しい Vary の特性が、きめ細かい視覚認識能力を大幅に強化します。
バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式スクリーンショット、およびチャート理解機能も刺激します。
さらに、研究チームは、本来は数千のトークンを必要とした可能性のあるページコンテンツが文書画像を通じて入力され、その情報が 256 個の画像トークンに Vary 圧縮されていることにも気づきました。これにより、さらなるページ分析のための情報も提供されました。想像力の余地がさらに広がります。
現在、Vary のコードとモデルはオープンソースであり、誰でも試せる Web デモも提供されています。
興味のある友達は試してみてください~
以上がMegvii のオープンソース マルチモーダル大規模モデルは、中国語と英語をカバーするドキュメント レベルの OCR をサポートしています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

Dreamweaver Mac版
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
