Heim >Technologie-Peripheriegeräte >KI >Llamaindex: ein Datenrahmen für die Anwendungen der großen Sprachmodelle (LLMS)
llamaindex: Datenrahmen, die große Sprachmodelle
ermöglichenllamaindex ist ein Anwendungsdatenrahmen, das auf großen Sprachmodellen (LLM) basiert. LLMs wie GPT-4 verarbeiten eine große Anzahl öffentlicher Datensätze, um leistungsstarke Funktionen für natürliche Sprachverarbeitung zu bieten. Ihr Versorgungsunternehmen ist jedoch ohne Zugriff auf Ihre eigenen privaten Daten begrenzt.
Mitllamaindex können Sie Daten aus APIs, Datenbanken, PDFs und anderen Quellen über flexible Datenverbinder aufnehmen. Diese Daten werden in Zwischendarstellungen indexiert, die für LLM optimiert sind. Llamaindex ermöglicht dann über eine Abfrage-Engine, eine Chat-Schnittstelle und einen LLM-gesteuerten Agenten eine Abfrage und Konversation mit Ihren Daten mit Ihren Daten. Es ermöglicht Ihrem LLM, auf private Daten in Maßstab zuzugreifen und zu interpretieren, ohne das Modell umzusetzen.
Egal, ob Sie ein Anfänger sind, der nach einer einfachen natürlichen Sprachmethode sucht, um Daten abzufragen, oder ein fortschrittlicher Benutzer, der eine tiefe Anpassung benötigt, llamaindex verfügt über die entsprechenden Tools. Mit der erweiterten API können Sie mit nur fünf Elementen Code beginnen, während die API auf niedriger Ebene die Aufnahme, Indexierung, das Abrufen und mehr vollständig kontrollieren.
llamaNdex verwendet ein RA -System (Abruf Enhanced Generation), das große Sprachmodelle mit einer privaten Wissensbasis kombiniert. Es besteht normalerweise aus zwei Phasen: der Indexierungsphase und der Abfragephase.
Bilder stammen aus erweiterten Konzepten
Während der Indexierungsphase wird LlamAndex private Daten effizient in Vektorindizes indexieren. Dieser Schritt hilft dabei, eine durchsuchbare Wissensbasis zu erstellen, die für Ihr Feld spezifisch ist. Sie können Textdokumente, Datenbankdatensätze, Wissensdiagramme und andere Datentypen eingeben.
im Wesentlichen wandelt der Index die Daten in einen numerischen Vektor oder die Einbettung um, um seine semantische Bedeutung zu erfassen. Es ermöglicht schnelle Suchanfragen nach Ähnlichkeit über Inhalte hinweg.
In der Abfragephase sucht die RAG -Pipeline nach den relevantesten Informationen basierend auf der Abfrage des Benutzers. Diese Informationen werden dann der LLM mit der Abfrage zur Verfügung gestellt, um eine genaue Antwort zu erstellen.
Mit diesem Verfahren kann LLM auf aktuelle und aktualisierte Informationen zugreifen, die möglicherweise nicht in sein erstes Training enthalten sind.
Die Hauptherausforderung in diesem Stadium besteht darin, Informationen aus mehreren Wissensbasen abzurufen, zu organisieren und zu organisieren und zu organisieren.
Erfahren Sie mehr über Rag in unserem Codes -Beispiel für erweiterte Erzeugung von Tinecone Abruf.
Bevor wir in die Lamaindex -Tutorials und -projekte eintauchen, müssen wir das Python -Paket installieren und die API einrichten.
Wir können einfach Lamaindex mit PIP installieren.
<code>pip install llama-index</code>
standardmäßig verwendet LlamaNdex das OpenAI GPT-3-Text-Davin-003-Modell. Um dieses Modell zu verwenden, müssen Sie openai_api_key festlegen. Sie können ein kostenloses Konto erstellen und die API -Schlüssel erhalten, indem Sie sich bei OpenAs neuem API -Token anmelden.
<code>pip install llama-index</code>
Stellen Sie außerdem sicher, dass Sie das OpenAI -Paket installiert haben.
<code>import os os.environ["OPENAI_API_KEY"] = "INSERT OPENAI KEY"</code>
In diesem Abschnitt lernen wir, wie man einen Lebenslaufleser mit llamaNdex erstellt. Sie können Ihren Lebenslauf herunterladen, indem Sie die LinkedIn -Profilseite besuchen, auf "More" klicken und dann "als PDF speichern".
Bitte beachten Sie, dass wir Datalab verwenden, um den Python -Code auszuführen. Sie können auf alle relevanten Code und Ausgabe in der Lamaindex zugreifen: Fügen Sie personenbezogene Daten zur LLM -Arbeitsmappe hinzu.
Wir müssen Lama-Index, Openai und PYPDF installieren, bevor wir etwas ausführen. Wir installieren PYPDF, damit wir PDF -Dateien lesen und konvertieren können.
<code>pip install openai</code>
Wir haben ein Verzeichnis namens "privatdaten", das nur eine PDF-Datei enthält. Wir werden es mit SimpledirectoryReader lesen und dann mit TreeIndex in den Index konvertieren.
<code>%pip install llama-index openai pypdf</code>
Sobald die Daten indiziert sind, können Sie Fragen mit AS_QUERY_ENGINE () stellen. Mit dieser Funktion können Sie Fragen zu bestimmten Informationen im Dokument stellen und die entsprechende Antwort mit Hilfe des OpenAI GPT-3-Text-Davin-003-Modells erhalten.
Hinweis: Sie können die OpenAI-API in Datalab einrichten, um die Anweisungen für die Verwendung von GPT-3.5 und GPT-4 über die OpenAI-API im Python-Tutorial zu verwenden.
Wie wir sehen können, beantwortet das LLM -Modell die Abfrage genau. Es suchte nach dem Index und fand relevante Informationen.
<code>from llama_index import TreeIndex, SimpleDirectoryReader resume = SimpleDirectoryReader("Private-Data").load_data() new_index = TreeIndex.from_documents(resume)</code>
<code>query_engine = new_index.as_query_engine() response = query_engine.query("When did Abid graduated?") print(response)</code>
Wir können weiter nach Zertifizierungsinformationen bitten. Es scheint, dass Llamaindex die Kandidaten vollständig verstanden hat, was für Unternehmen, die nach bestimmten Talenten suchen, von Vorteil sein können.
<code>Abid graduated in February 2014.</code>
<code>response = query_engine.query("What is the name of certification that Abid received?") print(response)</code>
Erstellen eines Index ist ein zeitaufwändiger Prozess. Wir können es vermeiden, den Index durch das Speichern des Kontextes wieder herzustellen. Standardmäßig speichert der folgende Befehl den im Verzeichnis ./storage gespeicherten Indexspeicher.
<code>Data Scientist Professional</code>
Wenn wir fertig sind, können wir den Speicherkontext schnell laden und einen Index erstellen.
<code>new_index.storage_context.persist()</code>
Um zu überprüfen, ob es ordnungsgemäß funktioniert, stellen wir den Fragen der Abfrage -Engine im Lebenslauf. Es scheint, dass wir den Kontext erfolgreich geladen haben.
<code>from llama_index import StorageContext, load_index_from_storage storage_context = StorageContext.from_defaults(persist_) index = load_index_from_storage(storage_context)</code>
<code>query_engine = index.as_query_engine() response = query_engine.query("What is Abid's job title?") print(response)</code>
Zusätzlich zu Q & A können wir auch persönliche Chatbots mit llamaNdex erstellen. Wir müssen nur die Funktion as_chat_engine () verwenden, um den Index zu initialisieren.
Wir werden eine einfache Frage stellen.
<code>Abid's job title is Technical Writer.</code>
<code>query_engine = index.as_chat_engine() response = query_engine.chat("What is the job title of Abid in 2021?") print(response)</code>
und ohne zusätzlichen Kontext werden wir Follow-up-Fragen stellen.
<code>Abid's job title in 2021 is Data Science Consultant.</code>
<code>response = query_engine.chat("What else did he do during that time?") print(response)</code>
Es ist offensichtlich, dass die Chat -Engine perfekt läuft.
Nach dem Erstellen einer Sprachanwendung besteht der nächste Schritt in Ihrer Zeitleiste darin, über die Vor- und Nachteile der Verwendung von großsprachigen Modellen (LLMs) in der Cloud zu lesen und sie lokal auszuführen. Auf diese Weise können Sie feststellen, welcher Ansatz für Ihre Bedürfnisse am besten geeignet ist.
Unser nächstes Projekt beinhaltet die Entwicklung einer Anwendung, die auf Fragen von Wikipedia antworten und sie in Stimme umwandeln kann.
Codequelle und zusätzliche Informationen finden Sie in der Arbeitsmappe von Datalab.
Zunächst werden wir die Daten von der italienischen Wikipedia-Webseite kriechen und sie im Datenordner als italien_text.txt-Datei speichern.
<code>pip install llama-index</code>
Als nächstes müssen wir die erforderlichen Pakete installieren. Das ElevenLabs -Paket ermöglicht es uns, Text mit der API problemlos in die Sprache umzuwandeln.
<code>import os os.environ["OPENAI_API_KEY"] = "INSERT OPENAI KEY"</code>
Durch die Verwendung von SimpledirectoryReader werden wir die Daten laden und die TXT -Datei mit VectorStoreIndex in einen Vektorspeicher konvertieren.
<code>pip install openai</code>
Unser Plan ist es, allgemeine Fragen zum Land zu stellen und eine Antwort von LLM Query_Engine zu erhalten.
<code>%pip install llama-index openai pypdf</code>
Nach
verwenden wir das Modul llama_index.tts, um auf die Elevenlabstts -API zuzugreifen. Sie müssen den Elevenlabs -API -Schlüssel bereitstellen, um die Audio -Generierungsfunktion zu aktivieren. Sie können API -Schlüssel kostenlos auf der elfLabs -Website kostenlos erhalten.<code>from llama_index import TreeIndex, SimpleDirectoryReader resume = SimpleDirectoryReader("Private-Data").load_data() new_index = TreeIndex.from_documents(resume)</code>
Wir fügen die Antwort der Funktion generate_audio hinzu, um eine natürliche Sprache zu generieren. Um das Audio anzuhören, werden wir die Audiofunktion von ipython.display verwenden.
<code>query_engine = new_index.as_query_engine() response = query_engine.query("When did Abid graduated?") print(response)</code>
Dies ist ein einfaches Beispiel. Sie können mehrere Module verwenden, um Ihren Assistenten wie Siri zu erstellen, der Ihre Fragen beantwortet, indem Sie Ihre privaten Daten interpretieren. Weitere Informationen finden Sie in der Lamaindex -Dokumentation.
Zusätzlich zu Llamaindex ermöglicht Langchain auch, dass Sie LLM-basierte Anwendungen erstellen. Darüber hinaus können Sie die Langchain -Erste mit Daten Engineering- und Datenanwendungen lesen, um einen Überblick darüber zu erfahren, was Sie mit Langchain tun können, einschließlich der Probleme und Datenanwendungsbeispiele, die Langchain löst.
llamaindex bietet ein vollständiges Toolkit für den Aufbau von Sprachanwendungen. Vor allem können Sie die verschiedenen Datenlader und Agenten -Tools in LLAMA HUB verwenden, um komplexe Anwendungen mit mehreren Funktionen zu entwickeln.
Sie können einen oder mehrere Plugin -Datenlader verwenden, um eine benutzerdefinierte Datenquelle mit Ihrem LLM zu verbinden.
Datenladeer aus dem Lama Hub
Sie können auch das Agent-Tool verwenden, um Tools und APIs von Drittanbietern zu integrieren.
Agistrator -Tool aus dem Lama Hub
Kurz gesagt, Sie können mit llamaindex bauen:
Schlussfolgerung
In diesem Tutorial haben wir etwas über Llamaindex und seine Arbeitsprinzipien erfahren. Darüber hinaus haben wir ein Projekt zur Lebenslauf- und Text-zu-Sprache-Projekt mit nur wenigen Zeilen von Python-Code erstellt. Das Erstellen einer LLM -Anwendung mit llamaNdex ist sehr einfach und bietet eine riesige Bibliothek mit Plugins, Datenladern und Agenten.
Um ein erfahrener LLM -Entwickler zu werden, besteht der nächste Schritt darin, den Master -Kurs des großen Sprachmodells zu belegen. In diesem Kurs werden Sie ein umfassendes Verständnis von LLMs vermitteln, einschließlich ihrer Anwendungen, Trainingsmethoden, ethischen Überlegungen und neuesten Forschungen.
Das obige ist der detaillierte Inhalt vonLlamaindex: ein Datenrahmen für die Anwendungen der großen Sprachmodelle (LLMS). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!