検索
ホームページテクノロジー周辺機器AIドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル

現在の明らかな傾向は、印象的な言語出力を生成できる数百億、数千億のパラメーターを備えた、より大規模で複雑なモデルを構築する方向です。

#ただし、既存の大規模言語モデルは主に文字情報に集中し、視覚情報を理解できない。

マルチモーダル大規模言語モデル (MLLM) の分野の進歩は、この制限に対処することを目的としています。MLLM は、視覚情報とテキスト情報を単一の Transformer ベースのモデルに融合し、モデルを次のようにします。両方のモダリティに基づいてコンテンツを学習および生成できます。

MLLM は、自然な画像理解やテキスト画像理解など、さまざまな実用的なアプリケーションでの可能性を示しています。これらのモデルは、マルチモーダルな問題を処理するための共通インターフェイスとして言語モデリングを活用し、テキストおよび視覚的な入力に基づいて応答を処理および生成できるようにします。ただし、現在は主に自然画像用の低解像度 MLLM に重点が置かれており、テキストに関する研究は比較的少ないです。 -濃密な画像。したがって、テキスト画像をトレーニングプロセスに組み込んでモデルを開発することにより、大規模なマルチモーダル事前トレーニングを活用してテキスト画像を処理することがMLLM研究の重要な方向性となっています

テキストと視覚情報に基づいて、高解像度のテキスト密度の高い画像を含むマルチモーダル アプリケーションの新たな可能性を開くことができます。

写真

論文アドレス: https://arxiv.org/abs/2309.11419ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル##KOSMOS-2.5 は、テキスト密度の高い画像に基づくマルチモーダル大規模言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダルな読み取りおよび理解機能を強調しています (マルチモーダル読み書きモデル)。

#提案されたモデルは、テキスト中心の画像を理解する際の優れたパフォーマンスを強調し、視覚とテキストの間のギャップを橋渡しします

同時に、これは、以前のエンコーダ/デコーダ アーキテクチャから純粋なデコーダ アーキテクチャへのタスク パラダイムの進化でもあります。

KOSMOS-2.5 は、テキストリッチな画像をターゲットとします。シームレスなビジュアルおよびテキスト データ処理を可能にし、画像の内容を理解し、構造化されたテキストの説明を生成します。

図 1: KOSMOS-2.5 の概要

KOSMOS-2.5 はマルチモーダル モデルです図 1 に示すように、統合フレームワークを使用して 2 つの密接に関連するタスクを処理することを目的としています。ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル

最初のタスクには、空間認識テキスト ブロックの生成が含まれます。つまり、コンテンツと座標フレームを同時に生成します。テキストブロックの。 書き換える必要がある内容は次のとおりです。 最初のタスクには、空間認識テキスト ブロックの生成が含まれます。つまり、テキスト ブロックと座標ボックスのコンテンツを同時に生成します。

#2 番目のタスクには、Markdown 形式の使用が含まれます。構造化テキスト出力を生成し、さまざまなスタイルと構造をキャプチャします。

図 2: KOSMOS-2.5 アーキテクチャ図

図 2 に示すように、どちらのタスクも共有の Transformer アーキテクチャとタスク固有のプロンプトを使用します。ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル

KOSMOS-2.5 は ViT (Vision Transformer) に基づいています。 ) ビジョン エンコーダーは、リサンプリング モジュールを介して接続された、Transformer アーキテクチャに基づくデコーダーと結合されます。

#図 3: トレーニング前のデータ セット

このモデルをトレーニングするために、作成者は図 3 に示すように、データ セットのサイズは 3 億 2,440 万個です。

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル

#図 4: 境界ボックスを使用したテキスト行のトレーニング サンプルの例

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル図 5: マークダウン形式のトレーニング サンプルの例

このデータ セットにはさまざまなデータが含まれていますタイプ 境界ボックスを含むテキスト行とマークダウン形式のプレーンテキストを含むテキスト密度の高い画像。図 4 と図 5 は、トレーニング サンプルの視覚化例です。

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデルこのマルチタスク トレーニング方法は、KOSMOS-2.5 の全体的なマルチモーダル機能を向上させます

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル[図 6] エンドツーエンドのドキュメントレベルのテキスト認識実験

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル図 7: 画像から Markdown 形式のテキストを生成する実験

図 6 と 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメントレベルのテキスト認識と画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。 。

KOSMOS-2.5 は、実験結果が示すように、テキスト中心の画像タスクの処理に優れています。

ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル 図 8: KOSMOS-2.5の入出力サンプル表示

KOSMOS-2.5は、数ショット学習およびゼロショット学習シナリオで有望な機能を示しており、実用的な多目的ツールになります。テキストの多い画像を処理するアプリケーション。これは、テキストの多い画像を効果的に処理し、数回のショットとゼロショットの学習状況の両方で有望な機能を発揮できる多用途ツールと考えることができます。チューニングは、モデルの幅広い適用能力を実現する有望な方法です。

より広範な研究分野において、重要な方向性は、モデル パラメーターを拡張する機能をさらに開発することにあります。

タスクの範囲と複雑さが拡大し続ける中、テキスト集約型のマルチモーダル モデルの開発には、大量のデータを処理できるようにモデルをスケーリングすることが重要です。

最終的な目標は、ビジュアル データとテキスト データを効果的に解釈し、テキストを多用するマルチモーダル タスク全体にうまく汎用化できるモデルを開発することです。

内容を書き換える場合は中国語に書き直す必要があり、元の文章は表示する必要はありません

https://arxiv.org/abs/ 2309.11419

以上がドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。