大規模なマルチモーダル高解像度ドキュメントも登場しました!
この技術は、画像内の情報を正確に識別するだけでなく、ユーザーのニーズに応じて質問に答えるために独自の知識ベースを呼び出すこともできます
たとえば、写真にマリオのインターフェイスが表示されている場合、直接できます 答えは、これは任天堂の作品であるということです。
このモデルは ByteDance と中国科学技術大学によって共同研究され、2023 年 11 月 24 日に arXiv にアップロードされました
ここで研究してください、著者チームは、統合された 高解像度 マルチモーダル ドキュメント大規模モデル DocPedia である DocPedia を提案しました。
この研究では、著者は高解像度の文書画像を解析できない既存のモデルの欠点を解決する新しい方法を使用しました。
DocPedia の解像度は最大 2560 × 2560 ですが、現在、LLaVA や MiniGPT-4 などの業界の先進的なマルチモーダル大型モデルでは、画像解像度の上限が 336 × 336 であるため、これを使用できません。高解像度のドキュメント画像を解析します。
それでは、このモデルはどのように機能し、どのような最適化手法が使用されているのでしょうか?
各種評価スコアの大幅な向上
本稿では、DocPedia の高解像度画像とテキスト理解の例を示します。 DocPedia には、指示の内容を理解し、高解像度の文書画像や自然風景の画像から関連するグラフィック情報やテキスト情報を正確に抽出する機能があることがわかります。
たとえば、この一連の写真では、DocPedia が簡単に実行できます。写真から地雷 ナンバープレートの番号やコンピュータの構成などの文字情報により、手書きの文字でも正確に判断できます。
DocPedia は、画像内のテキスト情報と組み合わせて、大規模なモデル推論機能を使用して、コンテキストに基づいて問題を分析することもできます。
#次の表は、いくつかの既存のマルチモーダル大規模モデルと DocPedia の重要情報抽出 (KIE) およびビジュアル質問応答 (VQA) 機能を定量的に比較しています。
解像度を高め、効果的なトレーニング方法を採用することにより、DocPedia がさまざまなテスト ベンチマークで大幅な改善を達成したことがわかります。
それでは、DocPedia はどのようにして成果を上げているのでしょうか。そんな効果?
周波数領域からの解像度の問題の解決
DocPedia のトレーニングは、事前トレーニングと微調整の 2 つの段階に分かれています。 DocPedia をトレーニングするために、作成者チームはさまざまな種類のドキュメントを含む大量のグラフィック データを収集し、命令を微調整するデータ セットを構築しました。
##プレトレーニング段階では、大規模言語モデルはフリーズされ、出力トークン表現空間が大規模言語モデルと一致するようにビジュアル エンコーダーの一部のみが最適化されますこの段階で、著者チームは、テキストや自然のシーンの認識を含む DocPedia の認識機能を主にトレーニングすることを提案しました トレーニング前のタスクには、テキスト検出、テキスト認識、エンドツーエンド OCR、段落が含まれます読み取り、全文読み取り、画像テキストの説明。 微調整フェーズでは、大規模な言語モデルのフリーズが解除され、エンドツーエンドの全体的な最適化が実行されます。著者チームは、知覚理解の共同トレーニング戦略を提案しました。元の低レベルの知覚タスクに、この共同知覚理解トレーニング戦略を追加すると、DocPedia のパフォーマンスがさらに向上します。問題解決の戦略に関しては、既存の方法とは異なり、DocPedia は
周波数領域の観点から問題を解決します。
このステップの後、カスケード周波数ドメイン アダプター (周波数アダプター) を使用します。入力信号をビジョン エンコーダーに渡します。より深い解像度圧縮と特徴抽出のための
この方法では、2560×2560 の画像を 1600 個のトークンで表現できます。
元の画像をビジュアル エンコーダ (Swin Transformer など) に直接入力する場合と比較して、この方法ではトークンの数が 4 倍削減されます。
最後に、これらのトークンは、シーケンス次元の命令から変換されたトークンと結合され、応答用の大規模モデルに入力されます。
アブレーション実験の結果は、解像度の向上と共同認識理解の微調整の実行が、DocPedia のパフォーマンスを向上させる 2 つの重要な要素であることを示しています
次の図は、DocPedia の回答を紙の画像と、異なる入力スケールでの同じコマンドと比較したものです。解像度が 2560×2560 に増加した場合にのみ、DocPedia が正しく応答することがわかります。
下の図は、異なる微調整戦略の下で、同じシーンのテキスト画像と同じ命令に対する DocPedia のモデル応答を比較しています。
この例から、知覚と理解によって共同で微調整されたモデルは、テキスト認識と意味論的な質問応答を正確に実行できることがわかります
#論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2311.11810
以上が解像度の限界を突破: Byte と中国科学技術大学が大規模なマルチモーダル ドキュメント モデルを明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ホットトピック









