ドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデル
現在の明らかな傾向は、印象的な言語出力を生成できる数百億、数千億のパラメーターを備えた、より大規模で複雑なモデルを構築する方向です。
#ただし、既存の大規模言語モデルは主に文字情報に集中し、視覚情報を理解できない。 マルチモーダル大規模言語モデル (MLLM) の分野の進歩は、この制限に対処することを目的としています。MLLM は、視覚情報とテキスト情報を単一の Transformer ベースのモデルに融合し、モデルを次のようにします。両方のモダリティに基づいてコンテンツを学習および生成できます。 MLLM は、自然な画像理解やテキスト画像理解など、さまざまな実用的なアプリケーションでの可能性を示しています。これらのモデルは、マルチモーダルな問題を処理するための共通インターフェイスとして言語モデリングを活用し、テキストおよび視覚的な入力に基づいて応答を処理および生成できるようにします。ただし、現在は主に自然画像用の低解像度 MLLM に重点が置かれており、テキストに関する研究は比較的少ないです。 -濃密な画像。したがって、テキスト画像をトレーニングプロセスに組み込んでモデルを開発することにより、大規模なマルチモーダル事前トレーニングを活用してテキスト画像を処理することがMLLM研究の重要な方向性となっています テキストと視覚情報に基づいて、高解像度のテキスト密度の高い画像を含むマルチモーダル アプリケーションの新たな可能性を開くことができます。 写真論文アドレス: https://arxiv.org/abs/2309.11419##KOSMOS-2.5 は、テキスト密度の高い画像に基づくマルチモーダル大規模言語モデルです。KOSMOS-2 に基づいて開発され、テキスト密度の高い画像のマルチモーダルな読み取りおよび理解機能を強調しています (マルチモーダル読み書きモデル)。
KOSMOS-2.5 はマルチモーダル モデルです図 1 に示すように、統合フレームワークを使用して 2 つの密接に関連するタスクを処理することを目的としています。
図 2 に示すように、どちらのタスクも共有の Transformer アーキテクチャとタスク固有のプロンプトを使用します。
#図 3: トレーニング前のデータ セット
このモデルをトレーニングするために、作成者は図 3 に示すように、データ セットのサイズは 3 億 2,440 万個です。#図 4: 境界ボックスを使用したテキスト行のトレーニング サンプルの例
図 5: マークダウン形式のトレーニング サンプルの例
このマルチタスク トレーニング方法は、KOSMOS-2.5 の全体的なマルチモーダル機能を向上させます
[図 6] エンドツーエンドのドキュメントレベルのテキスト認識実験
図 7: 画像から Markdown 形式のテキストを生成する実験
図 6 と 7 に示すように、KOSMOS-2.5 は、エンドツーエンドのドキュメントレベルのテキスト認識と画像からの Markdown 形式のテキストの生成という 2 つのタスクで評価されます。 。
KOSMOS-2.5 は、実験結果が示すように、テキスト中心の画像タスクの処理に優れています。
図 8: KOSMOS-2.5の入出力サンプル表示
KOSMOS-2.5は、数ショット学習およびゼロショット学習シナリオで有望な機能を示しており、実用的な多目的ツールになります。テキストの多い画像を処理するアプリケーション。これは、テキストの多い画像を効果的に処理し、数回のショットとゼロショットの学習状況の両方で有望な機能を発揮できる多用途ツールと考えることができます。チューニングは、モデルの幅広い適用能力を実現する有望な方法です。
より広範な研究分野において、重要な方向性は、モデル パラメーターを拡張する機能をさらに開発することにあります。
タスクの範囲と複雑さが拡大し続ける中、テキスト集約型のマルチモーダル モデルの開発には、大量のデータを処理できるようにモデルをスケーリングすることが重要です。
最終的な目標は、ビジュアル データとテキスト データを効果的に解釈し、テキストを多用するマルチモーダル タスク全体にうまく汎用化できるモデルを開発することです。
内容を書き換える場合は中国語に書き直す必要があり、元の文章は表示する必要はありません
https://arxiv.org/abs/ 2309.11419
以上がドキュメント内の単語が多ければ多いほど、モデルはより興奮します。 KOSMOS-2.5: 「テキスト密度の高い画像」を読み取るためのマルチモーダル大規模言語モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1
使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
