現實生活中的關鍵資訊擷取(第 2 部分):完善開源 LLM 效能
繼續第 1 部分,本指南探討使用開源大型語言模型 (LLM) – Qwen2 2B 和 LLaMA 3.1 – 進行發票資訊提取,重點是克服資料隱私問題和硬體限制(具有 12GB VRAM 的 RTX 3060)。
為什麼選 Qwen2 2B 和 LLaMA 3.1?
這些模型的選擇是由資源限制所驅動的。 Qwen2-VL-2B-Instruct 由於其高效的尺寸,優於較大的 7B 模型。透過 Ollama 存取的 LLaMA 3.1 (8B) 因其優化的長上下文理解而被選中。 其他模型,例如 Ollama 中的 Qwen2(缺乏影像支援)和 LLaVA(多語言功能不足),被認為不適合。
這種雙模型策略利用了 Qwen2 在一般關鍵資訊擷取方面的優勢和 LLaMA 3.1 卓越的長上下文處理和 JSON 輸出一致性,特別是對於多語言文件。 Qwen2 最初提取原始訊息,然後 LLaMA 3.1 將其細化並建構為標準化 JSON 格式。 PaddleOCR 與第 1 部分一樣,增強了 Qwen2 的視覺功能。
日本發票範例
使用日本發票作為測試案例。 初始 OCR 過程(結合語言偵測和 PaddleOCR)產生以下辨識文字:
<code>Recognized Text: {'ori_text': '根岸 東急ストア TEL 045-752-6131 領収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入会下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計 2,111 (内消費税等 100 現金 10001 お預り合計 110 001 お釣り 7 890', 'ori_language': 'ja', 'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 'language': 'en',}</code>
這是與 ChatGPT 基準進行比較,證明了 ChatGPT 在此初始測試中的卓越性能。
Qwen2 2B 結果(獨立)
獨立使用Qwen2暴露了它的局限性。 JSON 輸出在多個領域不完整且不準確,凸顯了其在一致的 JSON 格式和長上下文處理方面的困難。
結合 Qwen2 和 LLaMA 3.1 方法
採用 LLaMA 3.1 作為後處理器來細化 Qwen2 的輸出,得到了改進但仍然不完美的結果。 雖然一些關鍵字段被準確提取,但詳細的項目資訊仍然存在問題。
未來改善:微調 Qwen2VL
下一部分將使用收據資料集詳細微調 Qwen2VL 模型,旨在顯著提高這項專門任務的準確性和處理速度。
結論
實驗展示了開源法學碩士在現實世界關鍵資訊擷取方面的潛力和限制。雖然組合方法比使用單一模型提供了改進,但為了實現最佳性能,需要進一步細化,特別是透過模型微調。 對資料隱私和高效資源利用的關注仍然是這種開源方法的關鍵優勢。
以上是關鍵資訊擷取的實用方法(第 2 部分)的詳細內容。更多資訊請關注PHP中文網其他相關文章!