ドックリングでマルチモーダルAIのロック解除:検索された生成システムを構築するためのガイド
人工知能(AI)はデータ処理に革命をもたらし、マルチモーダル検索の高等世代(RAG)がこの変換の最前線にあります。 RAGシステムは、テキスト、画像、オーディオ、ビデオの多様なデータ型の取り扱いに優れています。これは、多くの企業で見られる主に非構造化されていないデータをナビゲートするための重要な機能です。この機能は、文脈的理解を高め、正確性を向上させ、ヘルスケア、顧客サービス、教育など、さまざまな分野でAIのアプリケーションを拡大します。
この記事では、生成AIアプリケーションのドキュメント処理を簡素化するように設計されたIBMのオープンソースツールキットであるDoclingを、特にマルチモーダルRAG機能の構築に焦点を当てています。 Doclingは、多様なファイル形式(PDF、Docx、画像など)を構造化された出力(JSON、MarkDown)に変換し、LangchainやLlamaindexなどの一般的なAIフレームワークとシームレスに統合します。これにより、構造化されていないデータの抽出が簡素化され、高度なレイアウト分析がサポートされ、AI駆動型の洞察にアクセスできる複雑なエンタープライズデータがアクセスできます。
主要な学習目標:
- ドクリングの理解:ドキュメントが非構造化されたファイルからマルチモーダル情報を抽出する方法を学びます。
- Doclingのアーキテクチャ: DoclingのパイプラインとコアAIコンポーネントを調べます。
- Doclingの特徴的な機能:他のソリューションとは一線を画すものを発見してください。
- マルチモーダルRAGシステムの構築:データ抽出と取得のためにドクリングを使用してシステムを実装します。
- エンドツーエンドのワークフロー: PDFからデータを抽出し、画像の説明を生成し、PHI 4を使用してベクターデータベースをクエリするプロセスをマスターします。
構造化されていないデータ処理のためのドクリング:
IBMのオープンソースツールキットであるDoclingは、非構造化されたファイル(PDF、DOCX、画像)を構造化された形式(JSON、MarkDown)に効率的に変換します。 DoclayNet(レイアウト分析用)やTableFormer(テーブル認識用)などの高度なAIモデルを活用して、ドキュメントをドキュメントで抽出し、ドキュメントの構造を保存しながら正確に抽出します。 LangchainおよびLlamainDexとのシームレスな統合は、RAGと質問を回避するアプリケーションをサポートしています。その軽量設計により、標準のハードウェアで効率的なパフォーマンスが保証され、クラウドベースのソリューションに代わる費用対効果の高い代替品を提供し、データプライバシーの優先順位付けを提供します。
ドクリングパイプライン:
ドクリングは線形パイプラインを採用しています。ドキュメントは最初に解析され(PDFバックエンド)、テキストトークンを座標で抽出し、ページビットマップをレンダリングします。 AIモデルは、各ページを個別に処理して、レイアウトとテーブル構造を抽出します。最後に、ポスト処理段階がページの結果を集約し、メタデータを追加し、言語を検出し、読み取り順序をインサールし、構造化されたドキュメントオブジェクト(JSONまたはマークダウン)を組み立てます。
ドクリング内のコアAIモデル:
ドクリングは、伝統的で計算上の高価なOCRを超えて動きます。視覚コンポーネントの識別と分類のために特別にトレーニングされたコンピュータービジョンモデルを利用します。
- レイアウト分析モデル: rt-detrに基づいて、DoclayNet(大規模で人間が発音したデータセット)を使用してトレーニングされたこのモデルは、テキストブロック、画像、テーブル、キャプションなどの要素を識別および分類するオブジェクト検出器として機能します。 72 DPIで画像を処理し、効率的なCPU処理を可能にします。
- Tableformerモデル:このビジョン変換モデルは、画像からテーブル構造の再構築、境界の欠落、空のセル、一貫性のないフォーマットなどの複雑さの処理に優れています。
Doclingの重要な利点:
- 汎用性のある形式のサポート: PDFS、DOCX、PPTX、HTML、画像などのプロセス、JSONおよびMarkDownへのエクスポート。
- 高度なPDF処理:レイアウト分析、読み取り順序検出、テーブル認識、およびスキャンされたドキュメントのOCR(オプション)が含まれます。
- 統一されたドキュメント表現:処理と分析を容易にするために、一貫した形式を使用します。
- AI-Ready Integration: LangchainおよびLlamaindexとシームレスに統合します。
- ローカル実行:機密データの安全な処理を有効にします。
- 効率的なパフォーマンス:従来のOCRよりも大幅に高速。
- モジュラーアーキテクチャ:簡単にカスタマイズ可能で拡張可能です。
- オープンソースの可用性: MITライセンスで無料で入手できます。
ドクリングを備えたマルチモーダルRAGシステムの構築(Python実装):
このセクションでは、Docling、PDFからテキスト、画像、テーブルの抽出、画像の説明の生成、ベクトルデータベースのクエリを使用してRAGシステムの構築を詳述しています。完全なコードは、Google Colabノートブック(元の記事に記載されているリンク)で入手できます。手順には、ライブラリのインストール、ドキュメントコンバーターのロード、チャンキングテキスト、テキストの処理、画像のエンコード、画像の説明生成のためのVision言語モデル(Ollamaを介したLlama3.2-vision)を使用して、ベクトルデータベース(Milvusなど)にデータを保存し、LLMを使用してシステムをクエリすることが含まれます。この例では、チャートを備えたサンプルPDF( "Accenture.pdf")を使用して、マルチモーダル検索を実証します。
(注:元の記事の詳細なコードスニペットはここに含まれますが、長さの制約のために、それらは省略されています。完全なコードについては、元の記事を参照してください。)
RAGシステムの分析:
この記事では、PDF内のテキスト、表、画像の説明から情報を正確に取得および合成する能力を紹介し、いくつかの質問でシステムをクエリすることを示しています。結果は、PDFのスクリーンショットを使用して視覚的に確認されています。
結論:
Doclingは、構造化されていないデータを生成AIに適した形式に変換するための強力なツールです。高度なAIモデル、シームレスなフレームワーク統合、およびオープンソースの性質の組み合わせにより、堅牢で効率的なマルチモーダルRAGシステムを構築するための貴重な資産となります。現地の実行に対する費用対効果とサポートは、機密情報を処理する企業にとって特に有益です。
(注:長さの制約のために、元の記事の「よくある質問」セクションは、ここでは省略されています。Rag、Doclingの能力、およびエンタープライズの使用に対する適合性をさらに説明します。)
以上がドクリングを使用してマルチモーダルラグを構築する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

メモ帳++7.3.1
使いやすく無料のコードエディター

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
