Entsperren multimodaler KI mit Docling: Ein Leitfaden für die Erzeugung von Abrufgenerationssystemen
Künstliche Intelligenz (KI) revolutioniert die Datenverarbeitung, und die multimodale Abruf-Generation (LAB) steht dieser Transformation an der Spitze. Rag -Systeme zeichnen sich in der Behandlung verschiedener Datentypen aus - Texttypen, Bilder, Audio und Videos - eine kritische Fähigkeit zum Navigieren der überwiegend unstrukturierten Daten, die in vielen Unternehmen gefunden wurden. Diese Fähigkeit verbessert das kontextbezogene Verständnis, verbessert die Genauigkeit und erweitert die Anwendung der KI in verschiedenen Sektoren, einschließlich Gesundheitsversorgung, Kundendienst und Bildung.
In diesem Artikel wird Docling untersucht, ein Open-Source-Toolkit von IBM, das zur Vereinfachung der Dokumentenverarbeitung für generative KI-Anwendungen entwickelt wurde und sich speziell auf den Aufbau multimodaler Lag-Funktionen konzentriert. Docling wandelt verschiedene Dateiformate (PDFs, DOCX, Bilder usw.) in strukturierte Ausgänge (JSON, Markdown) um und integriert sich nahtlos in beliebte AI -Frameworks wie Langchain und Llamaindex. Dies vereinfacht die Extraktion unstrukturierter Daten und unterstützt erweiterte Layoutanalysen, wodurch komplexe Unternehmensdaten für KI-gesteuerte Erkenntnisse zugänglich sind.
Wichtige Lernziele:
- Verständnis für Docling: Erfahren Sie, wie Docling multimodale Informationen aus unstrukturierten Dateien extrahiert.
- Docling's Architecture: Untersuchen Sie die Pipeline von Docling und Kern -KI -Komponenten.
- Docling's Chary Features: Entdecken Sie, was das Docle von anderen Lösungen unterscheidet.
- Erstellen eines multimodalen Lappensystems: Implementieren Sie ein System mit Docling für Datenextraktion und Abruf.
- End-to-End-Workflow: Beherrschen Sie den Prozess des Extrahierens von Daten aus einem PDF, generieren Bildbeschreibungen und Abfragen einer Vektordatenbank mit Phi 4.
Docling für unstrukturierte Datenverarbeitung:
Docling, ein Open-Source-Toolkit von IBM, wandelt unstrukturierte Dateien (PDFs, DOCX, Bilder) effizient in strukturierte Formate (JSON, Markdown) um. Nutzung erweiterter KI -Modelle wie Doclaynet (für die Layoutanalyse) und Tableformer (zur Erkennung von Tabellen) extrahiert genau Text, Tabellen und Bilder, während die Struktur des Dokuments erhalten bleibt. Die nahtlose Integration in Langchain und Llamaindex unterstützt RAG- und Fragebedon-Beantwortungsanwendungen. Das leichte Design gewährleistet eine effiziente Leistung für Standardhardware, bietet eine kostengünstige Alternative zu Cloud-basierten Lösungen und die Priorisierung von Datenschutz.
Die Docling -Pipeline:
Docling verwendet eine lineare Pipeline. Dokumente werden zunächst analysiert (PDF -Backend), wodurch Texttoken mit Koordinaten und Rendering -Seitenbitmaps extrahiert werden. AI -Modelle verarbeiten dann jede Seite unabhängig, um Layout- und Tabellenstrukturen zu extrahieren. Schließlich fügt ein Nachbearbeitungstadium die Seitenergebnisse zu, fügt Metadaten hinzu, erkennt die Sprache, färbt die Lesereihenfolge und stellt ein strukturiertes Dokumentobjekt zusammen (JSON oder Markdown).
Kern -KI -Modelle innerhalb des Docling:
Das Docling bewegt sich über die traditionelle, rechenintensive OCR hinaus. Es werden Computer -Vision -Modelle verwendet, die speziell für die Identifizierung und Kategorisierung der visuellen Komponenten trainiert wurden.
- Layout-Analysemodell: Basierend auf RT-DETRT und trainiert mit Doclaynet (einem großen, menschlich angekündigten Datensatz) fungiert dieses Modell als Objektdetektor, in dem Elemente wie Textblöcke, Bilder, Tabellen und Untertitel identifiziert und klassifiziert werden. Es verarbeitet Bilder bei 72 DPI und ermöglicht eine effiziente CPU -Verarbeitung.
- Das Tableformer-Modell: Dieses Sehtransformatormodell zeichnet sich bei Rekonstruktion von Tabellenstrukturen aus Bildern aus, um die Komplexitäten wie fehlende Grenzen, leere Zellen und inkonsistente Formatierung.
Die wichtigsten Vorteile von Docling:
- Vielseitige Formatunterstützung: Prozesse PDFs, DOCX, PPTX, HTML, Bilder und mehr, exportieren nach JSON und Markdown.
- Erweiterte PDF -Handhabung: Beinhaltet Layoutanalyse, Leseauftragserkennung, Tabellenerkennung und OCR (optional) für gescannte Dokumente.
- Einheitliche Dokumentendarstellung: Verwendet ein konsistentes Format zur einfacheren Verarbeitung und Analyse.
- AI-fähige Integration: Integriert sich nahtlos in Langchain und Llamaindex.
- Lokale Ausführung: Ermöglicht eine sichere Verarbeitung sensibler Daten.
- Effiziente Leistung: erheblich schneller als die herkömmliche OCR.
- Modulare Architektur: leicht anpassbar und erweiterbar.
- Open-Source-Verfügbarkeit: Frei verfügbar im Rahmen der MIT-Lizenz.
Erstellen eines multimodalen Lappensystems mit Docling (Python -Implementierung):
In diesem Abschnitt wird beschrieben, dass das Erstellen eines Lappensystems mit Docling, Extrahieren von Text, Bildern und Tabellen aus einem PDF, Erzeugen von Bildbeschreibungen und Abfragen einer Vektor -Datenbank. Der vollständige Code ist in einem Google Colab -Notebook verfügbar (Link im Originalartikel). Die Schritte umfassen die Installation von Bibliotheken, das Laden des Docling-Wandlers, das Chunking-Text, die Verarbeitungstabellen, das Codieren von Bildern, das Unter Verwendung eines Vision-Sprachmodells (z. B. LLAMA3.2-Vision über Ollama) zur Bildbeschreibungserstellung, das Speichern von Daten in einer Vektor-Datenbank (z. B. Milvus) und das System mithilfe von LLM (EG, PHI 4). Das Beispiel verwendet ein Beispiel für PDF ("Accenture.pdf") mit Diagrammen, um multimodales Abrufen zu demonstrieren.
(Hinweis: Die detaillierten Code -Ausschnitte aus dem ursprünglichen Artikel würden hier enthalten, aber aufgrund von Längenbeschränkungen werden sie weggelassen. Weitere Informationen finden Sie im ursprünglichen Artikel für den vollständigen Code.)
Analyse des Lappensystems:
Der Artikel zeigt, dass das System mit mehreren Fragen abfragt und seine Fähigkeit zeigt, Informationen aus Text, Tabellen und Bildbeschreibungen innerhalb des PDF genau abzurufen und zu synthetisieren. Die Ergebnisse werden unter Verwendung von Screenshots aus der PDF visuell bestätigt.
Abschluss:
Docling ist ein leistungsstarkes Werkzeug zur Umwandlung unstrukturierter Daten in ein für generatives KI geeigneter Format. Die Kombination aus fortschrittlichen KI-Modellen, nahtloser Rahmenintegration und Open-Source-Natur macht es zu einem wertvollen Vorteil, um robuste und effiziente multimodale Lappensysteme zu bauen. Die Kostenwirksamkeit und Unterstützung für die lokale Ausführung sind besonders vorteilhaft für Unternehmen, die mit sensiblen Informationen umgehen.
(Hinweis: Der Abschnitt "häufig gestellte Fragen" aus dem ursprünglichen Artikel wird hier aufgrund von Längenbeschränkungen weggelassen. Es bietet weitere Klarstellung zu Lappen, die Funktionen von Docling und deren Eignung für die Verwendung von Unternehmen.)
Das obige ist der detaillierte Inhalt vonWie baue ich multimodalen Lappen mit Docling?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

KI rationalisiert die Waldfeuer -Erholung zulässt es Die KI -Software von Australian Tech -Firma Archistar, die maschinelles Lernen und Computer Vision nutzt, automatisiert die Bewertung der Erstellung von Plänen für die Einhaltung lokaler Vorschriften. Diese Vorvalidation signifikant

Estlands digitale Regierung: Ein Modell für die USA? Die USA kämpfen mit bürokratischen Ineffizienzen, aber Estland bietet eine überzeugende Alternative. Diese kleine Nation verfügt über eine fast 100% digitalisierte, bürgerzentrierte Regierung, die von der KI betrieben wird. Das ist nicht

Die Planung einer Hochzeit ist eine monumentale Aufgabe, die selbst die am meisten organisierten Paare oft überwältigt. In diesem Artikel, einem Teil einer laufenden Forbes -Serie zu AIs Auswirkungen (siehe Link hier), wird untersucht, wie generative KI die Hochzeitsplanung revolutionieren kann. Die Hochzeit pl

Unternehmen nutzen zunehmend KI -Agenten für den Umsatz, während die Regierungen sie für verschiedene etablierte Aufgaben nutzen. Verbrauchervertreter heben jedoch die Notwendigkeit hervor, dass Einzelpersonen ihre eigenen KI-Agenten als Verteidigung gegen die oft gezogenen

Google führt diese Verschiebung an. Die Funktion "KI -Übersichten" bietet bereits mehr als eine Milliarde Nutzer und liefert vollständige Antworten, bevor jemand auf einen Link klickt. [^2] Andere Spieler gewinnen ebenfalls schnell an Boden. Chatgpt, Microsoft Copilot und PE

Im Jahr 2022 gründete er Social Engineering Defense Startup Doppel, um genau das zu tun. Und da Cybercriminals immer fortgeschrittenere KI -Modelle zum Turbo -Ladung ihrer Angriffe nutzen, haben die KI -Systeme von Doppel dazu beigetragen, sie im Maßstab zu bekämpfen - schneller und

Voila kann durch die Interaktion mit geeigneten Weltmodellen im Wesentlichen angehoben werden. Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruch

Labor Day 2050. Parks im ganzen Land füllen sich mit Familien, die traditionelle Grillen genießen, während nostalgische Paraden durch die Straßen der Stadt winden. Die Feier hat nun nun eine museumähnliche Qualität-historische Nachstellung als das Gedenken an C


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.
