Heim >Technologie-Peripheriegeräte >KI >Verbesserung von Lappensystemen mit nomischen Einbettungen
Multimodal Abruf-general-generierte Generationssysteme revolutionieren KI, indem verschiedene Datentypen integriert werden-Texttypen, Bilder, Audio und Video-für nuanciertere und kontextbezogene Antworten. Dies übertrifft den traditionellen Lappen, der sich ausschließlich auf Text konzentriert. Ein wesentlicher Fortschritt sind Nomic Vision-Einbettungen, die einen einheitlichen Raum für visuelle und textliche Daten erstellen und eine nahtlose Kreuzmodalinteraktion ermöglichen. Fortgeschrittene Modelle erzeugen hochwertige Einbettungen, verbessert das Abrufen des Informationen und die Überbrückung der Lücke zwischen verschiedenen Inhaltsformen, letztendlich bereichern die Benutzererfahrungen.
*Dieser Artikel ist Teil des Blogathons *** Data Science.
multimodales Lappen stellt einen signifikanten KI -Fortschritt dar, der auf traditionellen Lappen aufbaut, indem verschiedene Datentypen einbezogen werden. Im Gegensatz zu herkömmlichen Systemen, die in erster Linie Text verarbeiten, werden multimodale Lappenprozesse und integriert mehrere Datenformulare gleichzeitig. Dies führt zu umfassenderen Verständnis- und Kontextbekanntheitsantworten in verschiedenen Modalitäten.
multimodale Lappenkomponenten der Schlüssel:
Nomic Vision -Einbettungen sind eine wichtige Innovation, die einen einheitlichen Einbettungsraum für visuelle und textuelle Daten schaffen. Nomic Embett Vision V1 und V1.5, entwickelt von Nomic AI, teilen den gleichen latenten Raum wie ihre Texte (Nomic Einbettetext V1 und V1.5). Dies macht sie ideal für multimodale Aufgaben wie das Abrufen von Text-zu-Image-Abrufen. Mit einer relativ kleinen Parameterzahl (92 m) ist das Nomic-Einbettungsvision für groß angelegte Anwendungen effizient.
adressierende Clipmodellbeschränkungen:
Während CLIP in Null-Shot-Funktionen auszeichnet, unterdurchschnittlich die Textcodierer in Aufgaben über die Bildabnahme hinaus (wie in MTEB-Benchmarks gezeigt). Nomic Embed Vision befasst sich mit dem Sehverteller mit dem Nomic -Einbettungstext latenten Raum.
Nomic Embett Vision wurde neben dem Nomic-Einbettungstext trainiert, wodurch der Textcodierer gefriert und den Visionscodierer auf Bildtextpaaren trainiert wurde. Dies gewährleistet optimale Ergebnisse und Rückwärtskompatibilität mit Nomic -Einbettungstext -Einbettungen.
Clip-Modelle zeigen zwar in Null-Shot-Funktionen beeindruckend, zeigen jedoch Schwächen bei unimodalen Aufgaben wie der semantischen Ähnlichkeit (MTEB-Benchmarks). Nomic Embed Vision überwindet dies, indem er seinen Visionscodierer mit dem Nomic Embed Text Latent Space ausrichtet, was zu einer starken Leistung über Bild-, Text- und multimodale Aufgaben führt (ImageNet Zero-Shot, MTEB, DataComp-Benchmarks). .
praktische Python-Implementierung von multimodalem Lappen mit nomischen Seheinbettdings
Schritt 1: Bibliotheken installieren Installieren Sie die erforderlichen Python -Bibliotheken: OpenAI, Qdrant, Transformers, Torch, Pymupdf usw. (Code für Kürze ausgelassen, aber im Original vorhanden.)
Setzen Sie den OpenAI -API -Schlüssel und den importierten Bibliotheken (Pymupdf, Pil, Langchain, Openai usw.). (Code für Kürze weggelassen.)
extrahieren Sie Bilder aus dem PDF mit PYMUPDF und speichern Sie sie in einem Verzeichnis. (Code für Kürze weggelassen.)
Text aus jeder PDF -Seite mit PYMUPDF extrahieren. (Code für Kürze weggelassen.)
extrahierte Bilder und Text speichern. (Code für Kürze weggelassen.)
Teilen Sie den extrahierten Text mit Langchains RecursiveCharacterTextSplitter
in kleinere Stücke auf. (Code für Kürze weggelassen.)
Laden Sie den Text- und Vision -Einbettungsmodellen von Nomic mit den Transformers von Sugging Face. (Code für Kürze weggelassen.)
Text- und Bildeinbettung generieren. (Code für Kürze weggelassen.)
Texteinbettungen in einer QDrant -Sammlung speichern. (Code für Kürze weggelassen.)
Bildeinbettungen in einer separaten QDrant -Sammlung speichern. (Code für Kürze weggelassen.)
Erstellen Sie eine Funktion zum Abrufen relevanter Text- und Bild -Einbettungen basierend auf einer Abfrage. (Code für Kürze weggelassen.)
Verwenden Sie Langchain, um abgerufene Daten zu verarbeiten und Antworten mit einem Sprachmodell zu generieren (z. B. GPT-4). (Code für Kürze weggelassen.)
Die Beispielabfragen demonstrieren die Fähigkeit des Systems, Informationen sowohl aus Text als auch aus den Bildern innerhalb des PDF abzurufen. (Beispielabfragen und Ausgänge für Kürze weggelassen, aber im Original vorhanden.)
Nomic Vision -Einbettung erhöht den multimodalen Lappen signifikant und ermöglicht eine nahtlose Interaktion zwischen visuellen und textuellen Daten. Dies befasst sich mit Einschränkungen von Modellen wie Clip, der einen einheitlichen Einbettungsraum und einer verbesserten Leistung über verschiedene Aufgaben hinweg bereitgestellt wird. Dies führt zu reicheren, kontextbezogeneren Benutzererlebnissen in Produktionsumgebungen.
(FAQs für Kürze weggelassen, aber im Original vorhanden.)
Hinweis: Die Code -Snippets wurden aus der Kürze weggelassen, aber die Kernfunktionalität und die Schritte bleiben genau beschrieben. Die ursprüngliche Eingabe enthielt umfangreiche Code; Das Einschließen würde diese Reaktion übermäßig lang machen. Siehe die ursprüngliche Eingabe für die vollständige Code -Implementierung.
Das obige ist der detaillierte Inhalt vonVerbesserung von Lappensystemen mit nomischen Einbettungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!