Heim >Technologie-Peripheriegeräte >KI >Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Jennifer Aniston
Jennifer AnistonOriginal
2025-03-18 11:57:10478Durchsuche

Namaste! Ich bin ein Inder und wir erleben vier verschiedene Jahreszeiten: Winter, Sommer, Monsun und Herbst. Aber weißt du, was ich wirklich fürchte? Steuersaison!

In diesem Jahr habe ich wie immer die Einkommensteuervorschriften und Unterlagen Indiens gerungen, um meine rechtlichen Ersparnisse zu maximieren. Ich habe unzählige Videos und Dokumente verschlungen - einige in Englisch, andere in Hindi - auf der Suche nach Antworten. Mit nur 48 Stunden bis zur Frist wurde mir klar, dass ich keine Zeit mehr hatte. Ich wünschte mir verzweifelt eine schnelle, sprachunabhängige Lösung.

Während die Abruf der Augmented Generation (RAG) ideal zu sein schien, konzentrierten sich die meisten Tutorials und Modelle ausschließlich auf Englisch. Nicht englischinhalte Inhalte wurden weitgehend ignoriert. Dann traf Inspiration: Ich konnte eine Lag -Pipeline speziell für indische Inhalte bauen - eine in der Lage, Fragen mit Hindi -Dokumenten zu beantworten. Und so begann mein Projekt!

Colab Notebook: Für diejenigen, die einen praktischen Ansatz bevorzugen, ist der komplette Code in einem Colab-Notebook [Link zu Colab Notebook] verfügbar. Eine T4 -GPU -Umgebung wird empfohlen.

Lass uns eintauchen!

Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Wichtige Lernziele:

  • Erstellen Sie eine vollständige Lag -Pipeline zur Bearbeitung von Hindi -Steuerdokumenten.
  • Master -Techniken für Web -Scraping, Datenreinigung und Strukturierung von Hindi -Text für NLP.
  • Nutzen Sie Indikum, um Lag -Pipelines für indische Sprachen zu erstellen und die mehrsprachige Dokumentenverarbeitung zu verbessern.
  • Verwenden Sie Open-Source-Modelle wie mehrsprachige E5 und Airavata für Einbettungen und Textgenerierung in Hindi.
  • Konfigurieren und verwalten Sie Chromadb für effizientes Speichern und Abrufen von Vektor in Lappensystemen.
  • Sammeln Sie praktische Erfahrungen mit Dokumentaufnahme, Abruf und Fragen zur Beantwortung einer Hindi -Lappenpipeline.

Dieser Artikel ist Teil des Datenwissenschaftsblogathons.

Inhaltsverzeichnis:

  • Lernziele
  • Datenerfassung: Sammeln von Hindi -Steuerinformationen
  • Modellauswahl: Auswählen geeigneter Einbettungs- und Erzeugungsmodelle
  • Einrichten der Vektordatenbank
  • Aufnahme und Abruf von Dokument
  • Antwortgenerierung mit Airavata
  • Test und Bewertung
  • Abschluss
  • Häufig gestellte Fragen

Datenerfassung: Beschaffung von Hindi -Steuerinformationen

Meine Reise begann mit der Datenerfassung. Ich habe Hindi -Einkommensteuerinformationen aus Nachrichtenartikeln und Websites gesammelt, einschließlich FAQs und unstrukturierter Text, die Steuerabzüge, FAQs und relevante Formulare abdecken. Die anfänglichen URLs sind:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>

Datenreinigung und Parsen

Datenvorbereitung beteiligt:

  • Web -Scraping
  • Datenreinigung

Lassen Sie uns jeden Schritt untersuchen.

Web -Scraping

Ich habe markdown-crawler verwendet, eine bevorzugte Bibliothek für Web-Scraping. Installieren Sie es mit:

 <code>!pip install markdown-crawler !pip install markdownify</code>

markdown-crawler speichert Websites in Markdown und speichert sie in .md Dateien. Wir setzen max_depth auf 0, um zu vermeiden, dass Crawling verknüpfte Seiten vermieden wird.

Hier ist die Scraping -Funktion:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>

Dadurch speichert die Markdown -Dateien im Ordner incometax_documents .

Datenreinigung

Ein Parser liest die Markdown -Dateien und unterteilt sie in Abschnitte. Wenn Ihre Daten vorverarbeitet sind, überspringen Sie dies.

Wir verwenden markdown und BeautifulSoup :

 <code>!pip install beautifulsoup4 !pip install markdown</code>
 Kennzeichen importieren
Aus BS4 Import BeautifulSoup

# ... (read_markdown_file -Funktion bleibt gleich) ...

# ... (PASS_SECTION -Funktion bleibt gleich) ...

# ... (Code, um alle .md -Dateien zu verarbeiten und in Condent_sections zu speichern.

Die Daten sind jetzt sauberer und organisiert in passed_sections . Das Chunking könnte erforderlich sein, damit längere Inhalte innerhalb des Einbettungsmodell -Token -Grenzen (512) bleiben, aber es wird hier aufgrund der relativ kurzen Abschnitte weggelassen. Informationen zum Chunking -Code finden Sie im Notebook.

(Der Rest der Antwort folgt einem ähnlichen Muster der Zusammenfassung und Paraphrasierung des bereitgestellten Textes und der Aufrechterhaltung der Bildpositionen und -formate. Aufgrund der Länge der Eingabe wird dies in nachfolgenden Antworten bereitgestellt.)

Das obige ist der detaillierte Inhalt vonErstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn