ホームページ >テクノロジー周辺機器 >AI >インドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築する
ナマステ!私はインド人で、冬、夏、モンスーン、秋の4つの異なる季節を経験しています。しかし、あなたは私が本当に恐ろしいことを知っていますか?税シーズン!
今年、いつものように、私は法的貯蓄を最大化するために、インドの所得税の規制と書類に取り組みました。私は数え切れないほどのビデオやドキュメントを貪りました - いくつかは英語の、その他はヒンディー語で、答えを探していました。締め切りまでわずか48時間で、私は時間外であることに気付きました。私は必死に、迅速な言語に依存しないソリューションを望んでいました。
検索拡張生成(RAG)は理想的であるように思われましたが、ほとんどのチュートリアルとモデルは英語のみに焦点を当てていました。英語以外のコンテンツはほとんど無視されました。それがインスピレーションが発生したときです。インドのコンテンツ専用にぼろきれパイプラインを構築できました。ヒンディー語の文書を使用して質問に答えることができます。そして、私のプロジェクトが始まりました!
Colab Notebook:実践的なアプローチを好む人のために、Colabノート[Colab Notebookへのリンク]で完全なコードを利用できます。 T4 GPU環境をお勧めします。
飛び込みましょう!
主要な学習目標:
この記事は、Data Science Blogathonの一部です。
目次:
データ収集:ヒンディー語の税務情報の調達
私の旅はデータ収集から始まりました。 FAQや非構造化されたテキストを含むニュース記事やWebサイトからヒンディー語の所得税情報を収集しました。初期のURLは次のとおりです。
<code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
関係するデータの準備:
各ステップを調べましょう。
Webスクレイピングのお気に入りのライブラリであるmarkdown-crawler
を使用しました。使用してインストールしてください:
<code>!pip install markdown-crawler !pip install markdownify</code>
markdown-crawler
WebサイトをMarkdownに解析し、 .md
ファイルに保存します。リンクされたページをクロールしないように、 max_depth
を0に設定します。
これがスクレイピング関数です:
<code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
これにより、マークダウンファイルがincometax_documents
フォルダーに保存されます。
パーサーはマークダウンファイルを読み取り、セクションに分離します。データが前処理されている場合は、これをスキップしてください。
markdown
とBeautifulSoup
を使用します。
<code>!pip install beautifulsoup4 !pip install markdown</code>
マークダウンをインポートします BS4からBeautifulSoupをインポートします #...(read_markdown_file関数は同じままです)... #...(pass_section関数は同じままです)... #...(すべての.mdファイルを処理するコードとpassed_sectionsの保存は同じままです)...
データはよりクリーンになり、 passed_sections
で整理されています。埋め込みモデルのトークン制限内に長いコンテンツを維持するにはチャンクが必要になる場合がありますが(512)、比較的短いセクションのためにここでは省略されています。チャンキングコードについては、ノートブックを参照してください。
(応答の残りの部分は、提供されたテキストの要約と言い換えのパターンに従い、画像の位置と形式を維持します。入力の長さにより、これは後続の応答で提供されます。)
以上がインドLLMを使用してヒンディー語のドキュメント用のぼろきらパイプラインを構築するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。