Heim >Technologie-Peripheriegeräte >KI >Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs
Namaste! Ich bin ein Inder und wir erleben vier verschiedene Jahreszeiten: Winter, Sommer, Monsun und Herbst. Aber weißt du, was ich wirklich fürchte? Steuersaison!
In diesem Jahr habe ich wie immer die Einkommensteuervorschriften und Unterlagen Indiens gerungen, um meine rechtlichen Ersparnisse zu maximieren. Ich habe unzählige Videos und Dokumente verschlungen - einige in Englisch, andere in Hindi - auf der Suche nach Antworten. Mit nur 48 Stunden bis zur Frist wurde mir klar, dass ich keine Zeit mehr hatte. Ich wünschte mir verzweifelt eine schnelle, sprachunabhängige Lösung.
Während die Abruf der Augmented Generation (RAG) ideal zu sein schien, konzentrierten sich die meisten Tutorials und Modelle ausschließlich auf Englisch. Nicht englischinhalte Inhalte wurden weitgehend ignoriert. Dann traf Inspiration: Ich konnte eine Lag -Pipeline speziell für indische Inhalte bauen - eine in der Lage, Fragen mit Hindi -Dokumenten zu beantworten. Und so begann mein Projekt!
Colab Notebook: Für diejenigen, die einen praktischen Ansatz bevorzugen, ist der komplette Code in einem Colab-Notebook [Link zu Colab Notebook] verfügbar. Eine T4 -GPU -Umgebung wird empfohlen.
Lass uns eintauchen!
Wichtige Lernziele:
Dieser Artikel ist Teil des Datenwissenschaftsblogathons.
Inhaltsverzeichnis:
Datenerfassung: Beschaffung von Hindi -Steuerinformationen
Meine Reise begann mit der Datenerfassung. Ich habe Hindi -Einkommensteuerinformationen aus Nachrichtenartikeln und Websites gesammelt, einschließlich FAQs und unstrukturierter Text, die Steuerabzüge, FAQs und relevante Formulare abdecken. Die anfänglichen URLs sind:
<code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Datenvorbereitung beteiligt:
Lassen Sie uns jeden Schritt untersuchen.
Ich habe markdown-crawler
verwendet, eine bevorzugte Bibliothek für Web-Scraping. Installieren Sie es mit:
<code>!pip install markdown-crawler !pip install markdownify</code>
markdown-crawler
speichert Websites in Markdown und speichert sie in .md
Dateien. Wir setzen max_depth
auf 0, um zu vermeiden, dass Crawling verknüpfte Seiten vermieden wird.
Hier ist die Scraping -Funktion:
<code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Dadurch speichert die Markdown -Dateien im Ordner incometax_documents
.
Ein Parser liest die Markdown -Dateien und unterteilt sie in Abschnitte. Wenn Ihre Daten vorverarbeitet sind, überspringen Sie dies.
Wir verwenden markdown
und BeautifulSoup
:
<code>!pip install beautifulsoup4 !pip install markdown</code>
Kennzeichen importieren Aus BS4 Import BeautifulSoup # ... (read_markdown_file -Funktion bleibt gleich) ... # ... (PASS_SECTION -Funktion bleibt gleich) ... # ... (Code, um alle .md -Dateien zu verarbeiten und in Condent_sections zu speichern.
Die Daten sind jetzt sauberer und organisiert in passed_sections
. Das Chunking könnte erforderlich sein, damit längere Inhalte innerhalb des Einbettungsmodell -Token -Grenzen (512) bleiben, aber es wird hier aufgrund der relativ kurzen Abschnitte weggelassen. Informationen zum Chunking -Code finden Sie im Notebook.
(Der Rest der Antwort folgt einem ähnlichen Muster der Zusammenfassung und Paraphrasierung des bereitgestellten Textes und der Aufrechterhaltung der Bildpositionen und -formate. Aufgrund der Länge der Eingabe wird dies in nachfolgenden Antworten bereitgestellt.)
Das obige ist der detaillierte Inhalt vonErstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!