關鍵資訊擷取的實用方法（第 2 部分）-Python教學-PHP中文網

首頁

後端開發

Python教學

關鍵資訊擷取的實用方法（第 2 部分）

Linda Hamilton

Jan 16, 2025 pm 08:13 PM

現實生活中的關鍵資訊擷取（第 2 部分）：完善開源 LLM 效能

繼續第 1 部分，本指南探討使用開源大型語言模型 (LLM) – Qwen2 2B 和 LLaMA 3.1 – 進行發票資訊提取，重點是克服資料隱私問題和硬體限制（具有 12GB VRAM 的 RTX 3060）。

為什麼選 Qwen2 2B 和 LLaMA 3.1？

這些模型的選擇是由資源限制所驅動的。 Qwen2-VL-2B-Instruct 由於其高效的尺寸，優於較大的 7B 模型。透過 Ollama 存取的 LLaMA 3.1 (8B) 因其優化的長上下文理解而被選中。其他模型，例如 Ollama 中的 Qwen2（缺乏影像支援）和 LLaVA（多語言功能不足），被認為不適合。

這種雙模型策略利用了 Qwen2 在一般關鍵資訊擷取方面的優勢和 LLaMA 3.1 卓越的長上下文處理和 JSON 輸出一致性，特別是對於多語言文件。 Qwen2 最初提取原始訊息，然後 LLaMA 3.1 將其細化並建構為標準化 JSON 格式。 PaddleOCR 與第 1 部分一樣，增強了 Qwen2 的視覺功能。

日本發票範例

使用日本發票作為測試案例。初始 OCR 過程（結合語言偵測和 PaddleOCR）產生以下辨識文字：

<code>Recognized Text: 
{'ori_text': '根岸 東急ストア TEL 045-752-6131 領収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入会下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計 2,111 (内消費税等 100 現金 10001 お預り合計 110 001 お釣り 7 890', 
'ori_language': 'ja', 
'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 
'language': 'en',}</code>

Practical Approaches to Key Information Extraction (Part 2)

這是與 ChatGPT 基準進行比較，證明了 ChatGPT 在此初始測試中的卓越性能。

Qwen2 2B 結果（獨立）

獨立使用Qwen2暴露了它的局限性。 JSON 輸出在多個領域不完整且不準確，凸顯了其在一致的 JSON 格式和長上下文處理方面的困難。

結合 Qwen2 和 LLaMA 3.1 方法

採用 LLaMA 3.1 作為後處理器來細化 Qwen2 的輸出，得到了改進但仍然不完美的結果。雖然一些關鍵字段被準確提取，但詳細的項目資訊仍然存在問題。

未來改善：微調 Qwen2VL

下一部分將使用收據資料集詳細微調 Qwen2VL 模型，旨在顯著提高這項專門任務的準確性和處理速度。

結論

實驗展示了開源法學碩士在現實世界關鍵資訊擷取方面的潛力和限制。雖然組合方法比使用單一模型提供了改進，但為了實現最佳性能，需要進一步細化，特別是透過模型微調。對資料隱私和高效資源利用的關注仍然是這種開源方法的關鍵優勢。

以上是關鍵資訊擷取的實用方法（第 2 部分）的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python的執行模型：編譯，解釋還是兩者？May 10, 2025 am 12:04 AM

pythonisbothCompileDIntered。

Python是按線執行的嗎？May 10, 2025 am 12:03 AM

Python不是嚴格的逐行執行，而是基於解釋器的機制進行優化和條件執行。解釋器將代碼轉換為字節碼，由PVM執行，可能會預編譯常量表達式或優化循環。理解這些機制有助於優化代碼和提高效率。

python中兩個列表的串聯替代方案是什麼？May 09, 2025 am 12:16 AM

可以使用多種方法在Python中連接兩個列表：1.使用操作符，簡單但在大列表中效率低；2.使用extend方法，效率高但會修改原列表；3.使用 =操作符，兼具效率和可讀性；4.使用itertools.chain函數，內存效率高但需額外導入；5.使用列表解析，優雅但可能過於復雜。選擇方法應根據代碼上下文和需求。

Python：合併兩個列表的有效方法May 09, 2025 am 12:15 AM

有多種方法可以合併Python列表：1.使用操作符，簡單但對大列表不內存高效；2.使用extend方法，內存高效但會修改原列表；3.使用itertools.chain，適用於大數據集；4.使用*操作符，一行代碼合併小到中型列表；5.使用numpy.concatenate，適用於大數據集和性能要求高的場景；6.使用append方法，適用於小列表但效率低。選擇方法時需考慮列表大小和應用場景。

編譯的與解釋的語言：優點和缺點May 09, 2025 am 12:06 AM

CompiledLanguagesOffersPeedAndSecurity，而interneterpretledlanguages provideeaseafuseanDoctability.1）commiledlanguageslikec arefasterandSecureButhOnderDevevelmendeclementCyclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesandentency.2）cransportedeplatectentysenty

Python：對於循環，最完整的指南May 09, 2025 am 12:05 AM

Python中，for循環用於遍歷可迭代對象，while循環用於條件滿足時重複執行操作。 1）for循環示例：遍歷列表並打印元素。 2）while循環示例：猜數字遊戲，直到猜對為止。掌握循環原理和優化技巧可提高代碼效率和可靠性。

python concatenate列表到一個字符串中May 09, 2025 am 12:02 AM

要將列表連接成字符串，Python中使用join()方法是最佳選擇。 1)使用join()方法將列表元素連接成字符串，如''.join(my_list)。 2)對於包含數字的列表，先用map(str,numbers)轉換為字符串再連接。 3)可以使用生成器表達式進行複雜格式化，如','.join(f'({fruit})'forfruitinfruits)。 4)處理混合數據類型時，使用map(str,mixed_list)確保所有元素可轉換為字符串。 5)對於大型列表，使用''.join(large_li

Python的混合方法：編譯和解釋合併May 08, 2025 am 12:16 AM

pythonuseshybridapprace，ComminingCompilationTobyTecoDeAndInterpretation.1）codeiscompiledtoplatform-Indepententbybytecode.2）bytecodeisisterpretedbybythepbybythepythonvirtualmachine，增強效率和通用性。

See all articles