Heim >Backend-Entwicklung >Python-Tutorial >Praktische Ansätze zur Schlüsselinformationsextraktion (Teil 2)

Praktische Ansätze zur Schlüsselinformationsextraktion (Teil 2)

Linda Hamilton
Linda HamiltonOriginal
2025-01-16 20:13:16398Durchsuche

Echtzeit-Schlüsselinformationsextraktion (Teil 2): ​​Verfeinerung der Open-Source-LLM-Leistung

In Fortsetzung von Teil 1 untersucht dieser Leitfaden die Verwendung von Open-Source-LLMs (Large Language Models) – Qwen2 2B und LLaMA 3.1 – für die Extraktion von Rechnungsinformationen, wobei der Schwerpunkt auf der Überwindung von Datenschutzbedenken und Hardwareeinschränkungen (RTX 3060 mit 12 GB VRAM) liegt.

Warum Qwen2 2B und LLaMA 3.1?

Die Wahl dieser Modelle wurde durch Ressourcenbeschränkungen bestimmt. Qwen2-VL-2B-Instruct wurde aufgrund seiner effizienten Größe gegenüber größeren 7B-Modellen bevorzugt. LLaMA 3.1 (8B), auf das über Ollama zugegriffen wird, wurde aufgrund seines optimierten Langkontextverständnisses ausgewählt. Andere Modelle wie Qwen2 in Ollama (fehlende Bildunterstützung) und LLaVA (unzureichende Mehrsprachigkeit) wurden als ungeeignet erachtet.

Diese Zwei-Modell-Strategie nutzt die Stärke von Qwen2 bei der allgemeinen Schlüsselinformationsextraktion und die überlegene Langkontextverarbeitung und JSON-Ausgabekonsistenz von LLaMA 3.1, insbesondere für mehrsprachige Dokumente. Qwen2 extrahiert zunächst Rohinformationen, die LLaMA 3.1 dann verfeinert und in ein standardisiertes JSON-Format strukturiert. PaddleOCR verbessert wie in Teil 1 die Sehfähigkeiten für Qwen2.

Ein japanisches Rechnungsbeispiel

Als Testfall wurde eine japanische Rechnung verwendet. Der anfängliche OCR-Prozess (einschließlich Spracherkennung und PaddleOCR) ergab den folgenden erkannten Text:

<code>Recognized Text: 
{'ori_text': '根岸 東急ストア TEL 045-752-6131 領収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入会下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計 2,111 (内消費税等 100 現金 10001 お預り合計 110 001 お釣り 7 890', 
'ori_language': 'ja', 
'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 
'language': 'en',}</code>

Practical Approaches to Key Information Extraction (Part 2)

Dies wurde mit einer ChatGPT-Basislinie verglichen, was die überlegene Leistung von ChatGPT in diesem ersten Test demonstrierte.

Qwen2 2B-Ergebnisse (Standalone)

Die unabhängige Verwendung von Qwen2 zeigte seine Grenzen. Die JSON-Ausgabe war in mehreren Bereichen unvollständig und ungenau, was die Schwierigkeiten mit der konsistenten JSON-Formatierung und der Verarbeitung langer Kontexte verdeutlicht.

Kombinierter Qwen2- und LLaMA 3.1-Ansatz

Der Einsatz von LLaMA 3.1 als Postprozessor zur Verfeinerung der Ausgabe von Qwen2 führte zu verbesserten, aber immer noch unvollständigen Ergebnissen. Während einige Schlüsselfelder korrekt extrahiert wurden, blieben detaillierte Artikelinformationen problematisch.

Zukünftige Verbesserungen: Feinabstimmung von Qwen2VL

Im nächsten Teil wird die Feinabstimmung des Qwen2VL-Modells mithilfe eines Datensatzes von Empfangsdaten detailliert beschrieben, mit dem Ziel, sowohl die Genauigkeit als auch die Verarbeitungsgeschwindigkeit für diese spezielle Aufgabe deutlich zu verbessern.

Fazit

Dieses Experiment zeigt das Potenzial und die Grenzen von Open-Source-LLMs für die Extraktion wichtiger Informationen in der Praxis. Während ein kombinierter Ansatz Verbesserungen gegenüber der Verwendung eines einzelnen Modells bietet, ist eine weitere Verfeinerung, insbesondere durch Feinabstimmung des Modells, erforderlich, um eine optimale Leistung zu erzielen. Der Fokus auf Datenschutz und effiziente Ressourcennutzung bleibt ein wesentlicher Vorteil dieses Open-Source-Ansatzes.

Das obige ist der detaillierte Inhalt vonPraktische Ansätze zur Schlüsselinformationsextraktion (Teil 2). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn