


Namaste! Ich bin ein Inder und wir erleben vier verschiedene Jahreszeiten: Winter, Sommer, Monsun und Herbst. Aber weißt du, was ich wirklich fürchte? Steuersaison!
In diesem Jahr habe ich wie immer die Einkommensteuervorschriften und Unterlagen Indiens gerungen, um meine rechtlichen Ersparnisse zu maximieren. Ich habe unzählige Videos und Dokumente verschlungen - einige in Englisch, andere in Hindi - auf der Suche nach Antworten. Mit nur 48 Stunden bis zur Frist wurde mir klar, dass ich keine Zeit mehr hatte. Ich wünschte mir verzweifelt eine schnelle, sprachunabhängige Lösung.
Während die Abruf der Augmented Generation (RAG) ideal zu sein schien, konzentrierten sich die meisten Tutorials und Modelle ausschließlich auf Englisch. Nicht englischinhalte Inhalte wurden weitgehend ignoriert. Dann traf Inspiration: Ich konnte eine Lag -Pipeline speziell für indische Inhalte bauen - eine in der Lage, Fragen mit Hindi -Dokumenten zu beantworten. Und so begann mein Projekt!
Colab Notebook: Für diejenigen, die einen praktischen Ansatz bevorzugen, ist der komplette Code in einem Colab-Notebook [Link zu Colab Notebook] verfügbar. Eine T4 -GPU -Umgebung wird empfohlen.
Lass uns eintauchen!
Wichtige Lernziele:
- Erstellen Sie eine vollständige Lag -Pipeline zur Bearbeitung von Hindi -Steuerdokumenten.
- Master -Techniken für Web -Scraping, Datenreinigung und Strukturierung von Hindi -Text für NLP.
- Nutzen Sie Indikum, um Lag -Pipelines für indische Sprachen zu erstellen und die mehrsprachige Dokumentenverarbeitung zu verbessern.
- Verwenden Sie Open-Source-Modelle wie mehrsprachige E5 und Airavata für Einbettungen und Textgenerierung in Hindi.
- Konfigurieren und verwalten Sie Chromadb für effizientes Speichern und Abrufen von Vektor in Lappensystemen.
- Sammeln Sie praktische Erfahrungen mit Dokumentaufnahme, Abruf und Fragen zur Beantwortung einer Hindi -Lappenpipeline.
Dieser Artikel ist Teil des Datenwissenschaftsblogathons.
Inhaltsverzeichnis:
- Lernziele
- Datenerfassung: Sammeln von Hindi -Steuerinformationen
- Modellauswahl: Auswählen geeigneter Einbettungs- und Erzeugungsmodelle
- Einrichten der Vektordatenbank
- Aufnahme und Abruf von Dokument
- Antwortgenerierung mit Airavata
- Test und Bewertung
- Abschluss
- Häufig gestellte Fragen
Datenerfassung: Beschaffung von Hindi -Steuerinformationen
Meine Reise begann mit der Datenerfassung. Ich habe Hindi -Einkommensteuerinformationen aus Nachrichtenartikeln und Websites gesammelt, einschließlich FAQs und unstrukturierter Text, die Steuerabzüge, FAQs und relevante Formulare abdecken. Die anfänglichen URLs sind:
<code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Datenreinigung und Parsen
Datenvorbereitung beteiligt:
- Web -Scraping
- Datenreinigung
Lassen Sie uns jeden Schritt untersuchen.
Web -Scraping
Ich habe markdown-crawler
verwendet, eine bevorzugte Bibliothek für Web-Scraping. Installieren Sie es mit:
<code>!pip install markdown-crawler !pip install markdownify</code>
markdown-crawler
speichert Websites in Markdown und speichert sie in .md
Dateien. Wir setzen max_depth
auf 0, um zu vermeiden, dass Crawling verknüpfte Seiten vermieden wird.
Hier ist die Scraping -Funktion:
<code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Dadurch speichert die Markdown -Dateien im Ordner incometax_documents
.
Datenreinigung
Ein Parser liest die Markdown -Dateien und unterteilt sie in Abschnitte. Wenn Ihre Daten vorverarbeitet sind, überspringen Sie dies.
Wir verwenden markdown
und BeautifulSoup
:
<code>!pip install beautifulsoup4 !pip install markdown</code>
Kennzeichen importieren Aus BS4 Import BeautifulSoup # ... (read_markdown_file -Funktion bleibt gleich) ... # ... (PASS_SECTION -Funktion bleibt gleich) ... # ... (Code, um alle .md -Dateien zu verarbeiten und in Condent_sections zu speichern.
Die Daten sind jetzt sauberer und organisiert in passed_sections
. Das Chunking könnte erforderlich sein, damit längere Inhalte innerhalb des Einbettungsmodell -Token -Grenzen (512) bleiben, aber es wird hier aufgrund der relativ kurzen Abschnitte weggelassen. Informationen zum Chunking -Code finden Sie im Notebook.
(Der Rest der Antwort folgt einem ähnlichen Muster der Zusammenfassung und Paraphrasierung des bereitgestellten Textes und der Aufrechterhaltung der Bildpositionen und -formate. Aufgrund der Länge der Eingabe wird dies in nachfolgenden Antworten bereitgestellt.)
Das obige ist der detaillierte Inhalt vonErstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
![Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
Chatgpt ist nicht zugänglich? Dieser Artikel bietet eine Vielzahl von praktischen Lösungen! Viele Benutzer können auf Probleme wie Unzugänglichkeit oder langsame Reaktion stoßen, wenn sie täglich ChatGPT verwenden. In diesem Artikel werden Sie geführt, diese Probleme Schritt für Schritt basierend auf verschiedenen Situationen zu lösen. Ursachen für Chatgpts Unzugänglichkeit und vorläufige Fehlerbehebung Zunächst müssen wir feststellen, ob sich das Problem auf der OpenAI -Serverseite oder auf dem eigenen Netzwerk- oder Geräteproblemen des Benutzers befindet. Bitte befolgen Sie die folgenden Schritte, um Fehler zu beheben: Schritt 1: Überprüfen Sie den offiziellen Status von OpenAI Besuchen Sie die OpenAI -Statusseite (status.openai.com), um festzustellen, ob der ChatGPT -Dienst normal ausgeführt wird. Wenn ein roter oder gelber Alarm angezeigt wird, bedeutet dies offen

Am 10. Mai 2025 teilte der MIT-Physiker Max Tegmark dem Guardian mit, dass AI Labs Oppenheimers Dreifaltigkeitstestkalkül emulieren sollten, bevor sie künstliche Super-Intelligence veröffentlichen. „Meine Einschätzung ist, dass die 'Compton Constant', die Wahrscheinlichkeit, dass ein Rennen ums Rasse

Die KI -Musikkreationstechnologie verändert sich mit jedem Tag. In diesem Artikel werden AI -Modelle wie ChatGPT als Beispiel verwendet, um ausführlich zu erklären, wie mit AI die Erstellung der Musik unterstützt und sie mit tatsächlichen Fällen erklärt. Wir werden vorstellen, wie man Musik durch Sunoai, Ai Jukebox auf Umarmung und Pythons Music21 -Bibliothek kreiert. Mit diesen Technologien kann jeder problemlos Originalmusik erstellen. Es ist jedoch zu beachten, dass das Urheberrechtsproblem von AI-generierten Inhalten nicht ignoriert werden kann, und Sie müssen bei der Verwendung vorsichtig sein. Lassen Sie uns die unendlichen Möglichkeiten der KI im Musikfeld zusammen erkunden! OpenAIs neuester AI -Agent "Openai Deep Research" führt vor: [CHATGPT] ope

Die Entstehung von Chatgpt-4 hat die Möglichkeit von AI-Anwendungen erheblich erweitert. Im Vergleich zu GPT-3,5 hat sich ChatGPT-4 erheblich verbessert. Es verfügt über leistungsstarke Kontextverständnisfunktionen und kann auch Bilder erkennen und generieren. Es ist ein universeller AI -Assistent. Es hat in vielen Bereichen ein großes Potenzial gezeigt, z. B. die Verbesserung der Geschäftseffizienz und die Unterstützung der Schaffung. Gleichzeitig müssen wir jedoch auch auf die Vorsichtsmaßnahmen ihrer Verwendung achten. In diesem Artikel werden die Eigenschaften von ChatGPT-4 im Detail erläutert und effektive Verwendungsmethoden für verschiedene Szenarien einführt. Der Artikel enthält Fähigkeiten, um die neuesten KI -Technologien voll auszunutzen. Weitere Informationen finden Sie darauf. OpenAIs neueste AI -Agentin, klicken Sie auf den Link unten, um Einzelheiten zu "OpenAI Deep Research" zu erhalten.

CHATGPT -App: Entfesselt Ihre Kreativität mit dem AI -Assistenten! Anfängerführer Die ChatGPT -App ist ein innovativer KI -Assistent, der eine breite Palette von Aufgaben erledigt, einschließlich Schreiben, Übersetzung und Beantwortung von Fragen. Es ist ein Werkzeug mit endlosen Möglichkeiten, die für kreative Aktivitäten und Informationssammeln nützlich sind. In diesem Artikel werden wir für Anfänger eine leicht verständliche Weise von der Installation der ChatGPT-Smartphone-App bis hin zu den Funktionen für Apps wie Spracheingangsfunktionen und Plugins sowie die Punkte erklären, die Sie bei der Verwendung der App berücksichtigen sollten. Wir werden auch die Pluginbeschränkungen und die Konfiguration der Geräte-zu-Device-Konfiguration genauer betrachten

Chatgpt Chinesische Version: Schalte neue Erfahrung des chinesischen KI -Dialogs frei Chatgpt ist weltweit beliebt. Wussten Sie, dass es auch eine chinesische Version bietet? Dieses leistungsstarke KI -Tool unterstützt nicht nur tägliche Gespräche, sondern behandelt auch professionelle Inhalte und ist mit vereinfachtem und traditionellem Chinesisch kompatibel. Egal, ob es sich um einen Benutzer in China oder ein Freund, der Chinesisch lernt, Sie können davon profitieren. In diesem Artikel wird detailliert eingeführt, wie die chinesische ChatGPT -Version verwendet wird, einschließlich der Kontoeinstellungen, der Eingabeaufgabe der chinesischen Eingabeaufforderung, der Filtergebrauch und der Auswahl verschiedener Pakete sowie potenziellen Risiken und Antwortstrategien. Darüber hinaus werden wir die chinesische Chatgpt -Version mit anderen chinesischen KI -Tools vergleichen, um die Vorteile und Anwendungsszenarien besser zu verstehen. Openais neueste KI -Intelligenz

Diese können als der nächste Sprung nach vorne im Bereich der generativen KI angesehen werden, was uns Chatgpt und andere Chatbots mit großer Sprache modellierte. Anstatt nur Fragen zu beantworten oder Informationen zu generieren, können sie in unserem Namen Maßnahmen ergreifen, Inter

Effiziente Mehrfachkontoverwaltungstechniken mit Chatgpt | Eine gründliche Erklärung, wie man Geschäft und Privatleben nutzt! Chatgpt wird in verschiedenen Situationen verwendet, aber einige Leute machen sich möglicherweise Sorgen über die Verwaltung mehrerer Konten. In diesem Artikel wird ausführlich erläutert, wie mehrere Konten für ChatGPT, was zu tun ist, wenn Sie es verwenden und wie Sie es sicher und effizient bedienen. Wir decken auch wichtige Punkte wie den Unterschied in der Geschäfts- und Privatnutzung sowie die Einhaltung der Nutzungsbedingungen von OpenAI ab und bieten einen Leitfaden zur Verfügung, mit dem Sie mehrere Konten sicher verwenden können. Openai


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software
