Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。-AI-php.cn

ホームページ

テクノロジー周辺機器

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 09:23 PM

ページモデルocr

ドキュメント画像をMarkdown形式に変換したいですか?

以前は、このタスクにはテキスト認識、レイアウトの検出と並べ替え、数式テーブルの処理、テキストのクリーニングなどの複数の手順が必要でしたが、今回は 1 つの手順だけで済みます。文コマンド、

マルチモーダル大規模モデル

Vary はエンドツーエンドの結果を直接出力します:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。かどうか中国語または英語で書かれた大きな段落ですテキスト:

画像

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。式の文書画像も含まれています

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。またはモバイルページのスクリーンショット:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。変換することもできます画像のテーブルを

latex## に #Format:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。もちろん、マルチモードとして大規模なスケールモデル、ユニバーサル機能の維持は不可欠

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。 Vary は大きな可能性と非常に高い上限を示しています。OCR は長いパイプラインを必要とせず、直接出力できますプロンプトは、Latex、Word、Markdown などのさまざまな形式を出力します。このアーキテクチャでは、強力な言語優先順位を使用して、「レバレッジ」や「デュポール」など、OCR でタイプミスが起こりやすい単語を回避できます。あいまいな文書の場合は、事前言語の助けを借りて、より強力な OCR 効果を達成することも期待されています。

多くのネチズンの注目を集めたこのプロジェクトは、開始されるとすぐに広範な議論を引き起こしました。これを見たネチズンの一人は「本当にすごい！」と叫びました。

写真

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。この効果はどのようにして達成されるのでしょうか? 大規模モデルからのインスピレーション

現在、ほとんどすべての大規模なマルチモーダルモデルは、ビジョンエンコーダまたはビジュアルボキャブラリとして CLIP を使用しています。実際、4 億個の画像とテキストのペアでトレーニングされた CLIP は、強力な視覚的テキスト配置機能を備えており、ほとんどの日常業務での画像エンコーディングをカバーできます。

しかし、文書レベルの OCR やチャートの理解など、高密度できめの細かい認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかな

コーディングの非効率性と語彙不足を示します

質問。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模モデルにとっては「外国語」) に移行する場合、中国語をエンコードする元の語彙は非効率であるため、テキスト語彙を次のように拡張する必要があります。より良いパフォーマンスを達成し、良い結果をもたらします。研究チームはこれに触発されました。まさにこの機能のためです。

CLIP 視覚語彙に基づくマルチモーダル大規模モデルも同じ問題に直面し、「外国語画像」に遭遇します。」、テキストがびっしりと詰まった紙のページなど、画像を効率的にトークン化することは困難です。

Vary は、この問題を解決するために提供されたソリューションです。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます

##Picture

既製の CLIP ボキャブラリを直接使用する既存の方法とは異なり、Vary は 2 つの段階に分かれています。 Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。最初に、小さなものだけを使用します。デコーダネットワークは、自己回帰的な方法で強力な新しいビジュアルボキャブラリを生成します。次に、第 2 段階では、新しい語彙と CLIP 語彙が融合されて LVLM を効率的にトレーニングし、ドキュメントチャートやその他のデータでトレーニングされた新しい Vary の特性が、きめ細かい視覚認識能力を大幅に強化します。

バニラのマルチモーダル機能を維持しながら、エンドツーエンドの中国語と英語の画像、数式スクリーンショット、およびチャート理解機能も刺激します。

さらに、研究チームは、本来は数千のトークンを必要とした可能性のあるページコンテンツが文書画像を通じて入力され、その情報が 256 個の画像トークンに Vary 圧縮されていることにも気づきました。これにより、さらなるページ分析のための情報も提供されました。想像力の余地がさらに広がります。

現在、Vary のコードとモデルはオープンソースであり、誰でも試せる Web デモも提供されています。

興味のある友達は試してみてください~

以上がMegvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。