Wie baue ich multimodalen Lappen mit Docling?-KI-php.cn

Heim

Technologie-Peripheriegeräte

Wie baue ich multimodalen Lappen mit Docling?

Christopher Nolan

Mar 20, 2025 pm 03:16 PM

Entsperren multimodaler KI mit Docling: Ein Leitfaden für die Erzeugung von Abrufgenerationssystemen

Künstliche Intelligenz (KI) revolutioniert die Datenverarbeitung, und die multimodale Abruf-Generation (LAB) steht dieser Transformation an der Spitze. Rag -Systeme zeichnen sich in der Behandlung verschiedener Datentypen aus - Texttypen, Bilder, Audio und Videos - eine kritische Fähigkeit zum Navigieren der überwiegend unstrukturierten Daten, die in vielen Unternehmen gefunden wurden. Diese Fähigkeit verbessert das kontextbezogene Verständnis, verbessert die Genauigkeit und erweitert die Anwendung der KI in verschiedenen Sektoren, einschließlich Gesundheitsversorgung, Kundendienst und Bildung.

In diesem Artikel wird Docling untersucht, ein Open-Source-Toolkit von IBM, das zur Vereinfachung der Dokumentenverarbeitung für generative KI-Anwendungen entwickelt wurde und sich speziell auf den Aufbau multimodaler Lag-Funktionen konzentriert. Docling wandelt verschiedene Dateiformate (PDFs, DOCX, Bilder usw.) in strukturierte Ausgänge (JSON, Markdown) um und integriert sich nahtlos in beliebte AI -Frameworks wie Langchain und Llamaindex. Dies vereinfacht die Extraktion unstrukturierter Daten und unterstützt erweiterte Layoutanalysen, wodurch komplexe Unternehmensdaten für KI-gesteuerte Erkenntnisse zugänglich sind.

Wichtige Lernziele:

Verständnis für Docling: Erfahren Sie, wie Docling multimodale Informationen aus unstrukturierten Dateien extrahiert.
Docling's Architecture: Untersuchen Sie die Pipeline von Docling und Kern -KI -Komponenten.
Docling's Chary Features: Entdecken Sie, was das Docle von anderen Lösungen unterscheidet.
Erstellen eines multimodalen Lappensystems: Implementieren Sie ein System mit Docling für Datenextraktion und Abruf.
End-to-End-Workflow: Beherrschen Sie den Prozess des Extrahierens von Daten aus einem PDF, generieren Bildbeschreibungen und Abfragen einer Vektordatenbank mit Phi 4.

Docling für unstrukturierte Datenverarbeitung:

Docling, ein Open-Source-Toolkit von IBM, wandelt unstrukturierte Dateien (PDFs, DOCX, Bilder) effizient in strukturierte Formate (JSON, Markdown) um. Nutzung erweiterter KI -Modelle wie Doclaynet (für die Layoutanalyse) und Tableformer (zur Erkennung von Tabellen) extrahiert genau Text, Tabellen und Bilder, während die Struktur des Dokuments erhalten bleibt. Die nahtlose Integration in Langchain und Llamaindex unterstützt RAG- und Fragebedon-Beantwortungsanwendungen. Das leichte Design gewährleistet eine effiziente Leistung für Standardhardware, bietet eine kostengünstige Alternative zu Cloud-basierten Lösungen und die Priorisierung von Datenschutz.

Die Docling -Pipeline:

Wie baue ich multimodalen Lappen mit Docling?

Docling verwendet eine lineare Pipeline. Dokumente werden zunächst analysiert (PDF -Backend), wodurch Texttoken mit Koordinaten und Rendering -Seitenbitmaps extrahiert werden. AI -Modelle verarbeiten dann jede Seite unabhängig, um Layout- und Tabellenstrukturen zu extrahieren. Schließlich fügt ein Nachbearbeitungstadium die Seitenergebnisse zu, fügt Metadaten hinzu, erkennt die Sprache, färbt die Lesereihenfolge und stellt ein strukturiertes Dokumentobjekt zusammen (JSON oder Markdown).

Kern -KI -Modelle innerhalb des Docling:

Das Docling bewegt sich über die traditionelle, rechenintensive OCR hinaus. Es werden Computer -Vision -Modelle verwendet, die speziell für die Identifizierung und Kategorisierung der visuellen Komponenten trainiert wurden.

Layout-Analysemodell: Basierend auf RT-DETRT und trainiert mit Doclaynet (einem großen, menschlich angekündigten Datensatz) fungiert dieses Modell als Objektdetektor, in dem Elemente wie Textblöcke, Bilder, Tabellen und Untertitel identifiziert und klassifiziert werden. Es verarbeitet Bilder bei 72 DPI und ermöglicht eine effiziente CPU -Verarbeitung.
Das Tableformer-Modell: Dieses Sehtransformatormodell zeichnet sich bei Rekonstruktion von Tabellenstrukturen aus Bildern aus, um die Komplexitäten wie fehlende Grenzen, leere Zellen und inkonsistente Formatierung.

Die wichtigsten Vorteile von Docling:

Vielseitige Formatunterstützung: Prozesse PDFs, DOCX, PPTX, HTML, Bilder und mehr, exportieren nach JSON und Markdown.
Erweiterte PDF -Handhabung: Beinhaltet Layoutanalyse, Leseauftragserkennung, Tabellenerkennung und OCR (optional) für gescannte Dokumente.
Einheitliche Dokumentendarstellung: Verwendet ein konsistentes Format zur einfacheren Verarbeitung und Analyse.
AI-fähige Integration: Integriert sich nahtlos in Langchain und Llamaindex.
Lokale Ausführung: Ermöglicht eine sichere Verarbeitung sensibler Daten.
Effiziente Leistung: erheblich schneller als die herkömmliche OCR.
Modulare Architektur: leicht anpassbar und erweiterbar.
Open-Source-Verfügbarkeit: Frei verfügbar im Rahmen der MIT-Lizenz.

Erstellen eines multimodalen Lappensystems mit Docling (Python -Implementierung):

In diesem Abschnitt wird beschrieben, dass das Erstellen eines Lappensystems mit Docling, Extrahieren von Text, Bildern und Tabellen aus einem PDF, Erzeugen von Bildbeschreibungen und Abfragen einer Vektor -Datenbank. Der vollständige Code ist in einem Google Colab -Notebook verfügbar (Link im Originalartikel). Die Schritte umfassen die Installation von Bibliotheken, das Laden des Docling-Wandlers, das Chunking-Text, die Verarbeitungstabellen, das Codieren von Bildern, das Unter Verwendung eines Vision-Sprachmodells (z. B. LLAMA3.2-Vision über Ollama) zur Bildbeschreibungserstellung, das Speichern von Daten in einer Vektor-Datenbank (z. B. Milvus) und das System mithilfe von LLM (EG, PHI 4). Das Beispiel verwendet ein Beispiel für PDF ("Accenture.pdf") mit Diagrammen, um multimodales Abrufen zu demonstrieren.

(Hinweis: Die detaillierten Code -Ausschnitte aus dem ursprünglichen Artikel würden hier enthalten, aber aufgrund von Längenbeschränkungen werden sie weggelassen. Weitere Informationen finden Sie im ursprünglichen Artikel für den vollständigen Code.)

Analyse des Lappensystems:

Der Artikel zeigt, dass das System mit mehreren Fragen abfragt und seine Fähigkeit zeigt, Informationen aus Text, Tabellen und Bildbeschreibungen innerhalb des PDF genau abzurufen und zu synthetisieren. Die Ergebnisse werden unter Verwendung von Screenshots aus der PDF visuell bestätigt.

Abschluss:

Docling ist ein leistungsstarkes Werkzeug zur Umwandlung unstrukturierter Daten in ein für generatives KI geeigneter Format. Die Kombination aus fortschrittlichen KI-Modellen, nahtloser Rahmenintegration und Open-Source-Natur macht es zu einem wertvollen Vorteil, um robuste und effiziente multimodale Lappensysteme zu bauen. Die Kostenwirksamkeit und Unterstützung für die lokale Ausführung sind besonders vorteilhaft für Unternehmen, die mit sensiblen Informationen umgehen.

(Hinweis: Der Abschnitt "häufig gestellte Fragen" aus dem ursprünglichen Artikel wird hier aufgrund von Längenbeschränkungen weggelassen. Es bietet weitere Klarstellung zu Lappen, die Funktionen von Docling und deren Eignung für die Verwendung von Unternehmen.)

Das obige ist der detaillierte Inhalt vonWie baue ich multimodalen Lappen mit Docling?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Kalifornien tippt auf die KI auf die Fast-Track-Waldfeuer-ErholungsgenehmigungenMay 04, 2025 am 11:10 AM

KI rationalisiert die Waldfeuer -Erholung zulässt es Die KI -Software von Australian Tech -Firma Archistar, die maschinelles Lernen und Computer Vision nutzt, automatisiert die Bewertung der Erstellung von Plänen für die Einhaltung lokaler Vorschriften. Diese Vorvalidation signifikant

Was die USA aus Estlands KI-betriebener digitaler Regierung lernen könnenMay 04, 2025 am 11:09 AM

Estlands digitale Regierung: Ein Modell für die USA? Die USA kämpfen mit bürokratischen Ineffizienzen, aber Estland bietet eine überzeugende Alternative. Diese kleine Nation verfügt über eine fast 100% digitalisierte, bürgerzentrierte Regierung, die von der KI betrieben wird. Das ist nicht

Hochzeitsplanung über generative KIMay 04, 2025 am 11:08 AM

Die Planung einer Hochzeit ist eine monumentale Aufgabe, die selbst die am meisten organisierten Paare oft überwältigt. In diesem Artikel, einem Teil einer laufenden Forbes -Serie zu AIs Auswirkungen (siehe Link hier), wird untersucht, wie generative KI die Hochzeitsplanung revolutionieren kann. Die Hochzeit pl

Was sind Digital Defense AI Agents?May 04, 2025 am 11:07 AM

Unternehmen nutzen zunehmend KI -Agenten für den Umsatz, während die Regierungen sie für verschiedene etablierte Aufgaben nutzen. Verbrauchervertreter heben jedoch die Notwendigkeit hervor, dass Einzelpersonen ihre eigenen KI-Agenten als Verteidigung gegen die oft gezogenen

Ein Leitfaden für Unternehmensleiter zur generativen Motoroptimierung (GEO)May 03, 2025 am 11:14 AM

Google führt diese Verschiebung an. Die Funktion "KI -Übersichten" bietet bereits mehr als eine Milliarde Nutzer und liefert vollständige Antworten, bevor jemand auf einen Link klickt. [^2] Andere Spieler gewinnen ebenfalls schnell an Boden. Chatgpt, Microsoft Copilot und PE

Dieses Startup verwendet AI -Agenten, um böswillige Anzeigen und Imitatorkonten zu bekämpfenMay 03, 2025 am 11:13 AM

Im Jahr 2022 gründete er Social Engineering Defense Startup Doppel, um genau das zu tun. Und da Cybercriminals immer fortgeschrittenere KI -Modelle zum Turbo -Ladung ihrer Angriffe nutzen, haben die KI -Systeme von Doppel dazu beigetragen, sie im Maßstab zu bekämpfen - schneller und

Wie Weltmodelle die Zukunft der generativen KI und der LLMs radikal umformierenMay 03, 2025 am 11:12 AM

Voila kann durch die Interaktion mit geeigneten Weltmodellen im Wesentlichen angehoben werden. Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruch

Mai Tag 2050: Was haben wir gegangen, um zu feiern?May 03, 2025 am 11:11 AM

Labor Day 2050. Parks im ganzen Land füllen sich mit Familien, die traditionelle Grillen genießen, während nostalgische Paraden durch die Straßen der Stadt winden. Die Feier hat nun nun eine museumähnliche Qualität-historische Nachstellung als das Gedenken an C

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

<🎜>: Dead Rails - wie man Wölfe zähme

4 Wochen vorByDDD

Kraftstufen für jeden Feind & Monster in R.E.P.O.

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

2 Wochen vorByDDD

Heiße Werkzeuge

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Heiße Themen

1655

1414

1307

1254

1228