Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR?-KI-php.cn

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 05, 2024 pm 09:23 PM

页面模型ocr

Möchten Sie ein Dokumentbild in das Markdown-Format konvertieren?

In der Vergangenheit erforderte diese Aufgabe mehrere Schritte wie Texterkennung, Layouterkennung und -sortierung, Verarbeitung von Formeltabellen, Textbereinigung usw. –

Diesmal mit nur einem Befehlssatz: Multimodales großes Modell Vary wird direkt an die Ausgabeergebnisse des Terminals geliefert:

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bilder

Ob es sich um einen großen Text auf Chinesisch oder Englisch handelt:

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bilder

Enthält auch Formeldokumentbilder

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bilder

oder eine mobile Seite Screenshot:

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bild

Sie können die Tabelle im Bild sogar in Latex umwandelnFormat:

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bild

Natürlich als Multi-Modell groß Modell, die Aufrechterhaltung universeller Fähigkeiten ist unerlässlich. Die

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bilder

Vary zeigen großes Potenzial und eine extrem hohe Obergrenze, können keine lange Pipeline mehr erfordern, können direkt durchgängig ausgegeben werden und können verschiedene Formate wie Latex ausgeben nach Benutzeraufforderung, Wort, Markdown.

Mit starken Sprachprioritäten kann diese Architektur tippfehleranfällige Wörter in der OCR vermeiden, wie z. B. „Hebel“ und „Dupol“ usw. Bei Fuzzy-Dokumenten soll mit Hilfe von Sprachpriors auch stärkere OCR-Effekte erzielt werden

Das Projekt, das die Aufmerksamkeit vieler Internetnutzer auf sich zog, löste nach seinem Start sofort breite Diskussionen aus. Einer der Internetnutzer rief, nachdem er es gesehen hatte: „Es ist so großartig!“

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bild

Wie wird dieser Effekt erzielt?

Inspiriert von großen Modellen

Derzeit verwenden fast alle multimodalen großen Modelle CLIP als Vision Encoder oder visuelles Vokabular. Tatsächlich verfügt CLIP, das auf 400 Millionen Bild-Text-Paaren trainiert wurde, über starke Fähigkeiten zur visuellen Textausrichtung und kann die Bildkodierung bei den meisten täglichen Aufgaben abdecken.

Aber bei dichten und feinkörnigen Wahrnehmungsaufgaben wie OCR auf Dokumentebene und Diagrammverständnis, insbesondere in nicht-englischen Szenarien, zeigt CLIP offensichtliche Codierungsineffizienz und Probleme mit fehlendem Wortschatz.

Wenn ein großes reines NLP-Modell (wie LLaMA) von Englisch auf Chinesisch übergeht (eine „Fremdsprache“ für das große Modell), muss das Textvokabular erweitert werden, um bessere Ergebnisse zu erzielen, da das ursprüngliche Vokabular, das Chinesisch codiert, ineffizient ist.

Das Forschungsteam hat sich davon inspirieren lassen

Jetzt steht das auf dem visuellen CLIP-Vokabular basierende multimodale große Modell vor dem gleichen Problem und stößt auf „fremdsprachige Bilder“, wie z. B. eine dicht gepackte Seite Wenn Sie Text in einer Arbeit verwenden, ist es schwierig, Bilder effizient zu tokenisieren.

Vary ist eine Lösung zur Lösung dieses Problems. Es kann das visuelle Vokabular effizient erweitern, ohne das ursprüngliche Vokabular wiederherzustellen.

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Bilder funktioniert in zwei Phasen:

Zuerst werden wir in der ersten Phase ein kleines Netzwerk nur für Decoder verwenden, um auf autoregressive Weise ein leistungsstarkes neues visuelles Vokabular zu generieren.

Als nächstes werden in der zweiten Phase das neue Vokabular und das CLIP-Vokabular erstellt Zusammengeführt, um LVLM effizient zu trainieren und ihm neue Funktionen zu verleihen

Das Folgende ist eine Veranschaulichung der Trainingsmethode und Modellstruktur von Vary:

Bild

Das multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR? Vary wird auf öffentlichen Datensätzen und gerenderten Dokumentdiagrammen trainiert und verbessert die Feinkörnigkeit erheblich visuelle Wahrnehmungsfähigkeiten.

Während die multimodalen Vanilla-Funktionen erhalten bleiben, bietet es durchgängige chinesische und englische Bild-, Formel-Screenshots- und Diagrammverständnisfunktionen.

Darüber hinaus stellte das Forschungsteam fest, dass der Seiteninhalt, der ursprünglich möglicherweise Tausende von Token erforderte, durch Dokumentbilder eingegeben wurde und die Informationen in 256 Bildtoken komprimiert wurden, was auch mehr Fantasie für die weitere Seitenanalyse und den Zusammenfassungsraum bot.

Derzeit sind Varys Code und Modell Open Source, und es wird auch eine Webdemo bereitgestellt, die jeder ausprobieren kann.

Interessierte Freunde können es ausprobieren~

Das obige ist der detaillierte Inhalt vonDas multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die meisten verwendeten 10 Power BI -Diagramme - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Nutzung der Leistung der Datenvisualisierung mit Microsoft Power BI -Diagrammen In der heutigen datengesteuerten Welt ist es entscheidend, komplexe Informationen effektiv mit nicht-technischem Publikum zu kommunizieren. Die Datenvisualisierung schließt diese Lücke und transformiert Rohdaten i

Expertensysteme in KIApr 16, 2025 pm 12:00 PM

Expertensysteme: Ein tiefes Eintauchen in die Entscheidungsfunktion der KI Stellen Sie sich vor, Zugang zu Expertenberatung zu irgendetwas, von medizinischen Diagnosen bis hin zur Finanzplanung. Das ist die Kraft von Expertensystemen in der künstlichen Intelligenz. Diese Systeme imitieren den Profi

Drei der besten Vibe -Codierer brechen diese KI -Revolution im Code aufApr 16, 2025 am 11:58 AM

Zunächst ist es offensichtlich, dass dies schnell passiert. Verschiedene Unternehmen sprechen über die Proportionen ihres Code, die derzeit von KI verfasst wurden, und diese nehmen mit einem schnellen Clip zu. Es gibt bereits viel Arbeitsplatzverschiebung

Runway Ai's Gen-4: Wie kann eine Montage über Absurd hinausgehenApr 16, 2025 am 11:45 AM

Die Filmindustrie befindet sich neben allen kreativen Sektoren vom digitalen Marketing bis hin zu sozialen Medien an einer technologischen Kreuzung. Als künstliche Intelligenz beginnt, jeden Aspekt des visuellen Geschichtenerzählens umzugestiegen und die Landschaft der Unterhaltung zu verändern

Wie kann man sich 5 Tage lang anmelden. - Analytics VidhyaApr 16, 2025 am 11:43 AM

Der kostenlose KI/ML -Online -Kurs von ISRO: Ein Tor zu Geospatial Technology Innovation Die Indian Space Research Organization (ISRO) bietet durch ihr indisches Institut für Fernerkundung (IIRS) eine fantastische Gelegenheit für Studenten und Fachkräfte

Lokale Suchalgorithmen in KIApr 16, 2025 am 11:40 AM

Lokale Suchalgorithmen: Ein umfassender Leitfaden Die Planung eines groß angelegten Ereignisses erfordert eine effiziente Verteilung der Arbeitsbelastung. Wenn herkömmliche Ansätze scheitern, bieten lokale Suchalgorithmen eine leistungsstarke Lösung. In diesem Artikel wird Hill Climbing und Simul untersucht

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und KosteneffizienzApr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Die Eingabeaufforderung: Chatgpt generiert gefälschte PässeApr 16, 2025 am 11:35 AM

Der Chip Giant Nvidia sagte am Montag, es werde zum ersten Mal in den USA die Herstellung von KI -Supercomputern - Maschinen mit der Verarbeitung reichlicher Daten herstellen und komplexe Algorithmen ausführen. Die Ankündigung erfolgt nach Präsident Trump SI

See all articles