


Möchten Sie ein Dokumentbild in das Markdown-Format konvertieren?
In der Vergangenheit erforderte diese Aufgabe mehrere Schritte wie Texterkennung, Layouterkennung und -sortierung, Verarbeitung von Formeltabellen, Textbereinigung usw. –
Diesmal mit nur einem Befehlssatz: Multimodales großes Modell Vary wird direkt an die Ausgabeergebnisse des Terminals geliefert:
Bilder
Ob es sich um einen großen Text auf Chinesisch oder Englisch handelt:
Bilder
Enthält auch Formeldokumentbilder
Bilder
oder eine mobile Seite Screenshot:
Bild
Sie können die Tabelle im Bild sogar in Latex umwandelnFormat:
Bild
Natürlich als Multi-Modell groß Modell, die Aufrechterhaltung universeller Fähigkeiten ist unerlässlich. Die
Bilder
Vary zeigen großes Potenzial und eine extrem hohe Obergrenze, können keine lange Pipeline mehr erfordern, können direkt durchgängig ausgegeben werden und können verschiedene Formate wie Latex ausgeben nach Benutzeraufforderung, Wort, Markdown.
Mit starken Sprachprioritäten kann diese Architektur tippfehleranfällige Wörter in der OCR vermeiden, wie z. B. „Hebel“ und „Dupol“ usw. Bei Fuzzy-Dokumenten soll mit Hilfe von Sprachpriors auch stärkere OCR-Effekte erzielt werden
Das Projekt, das die Aufmerksamkeit vieler Internetnutzer auf sich zog, löste nach seinem Start sofort breite Diskussionen aus. Einer der Internetnutzer rief, nachdem er es gesehen hatte: „Es ist so großartig!“
Bild
Wie wird dieser Effekt erzielt?
Inspiriert von großen Modellen
Derzeit verwenden fast alle multimodalen großen Modelle CLIP als Vision Encoder oder visuelles Vokabular. Tatsächlich verfügt CLIP, das auf 400 Millionen Bild-Text-Paaren trainiert wurde, über starke Fähigkeiten zur visuellen Textausrichtung und kann die Bildkodierung bei den meisten täglichen Aufgaben abdecken.
Aber bei dichten und feinkörnigen Wahrnehmungsaufgaben wie OCR auf Dokumentebene und Diagrammverständnis, insbesondere in nicht-englischen Szenarien, zeigt CLIP offensichtliche Codierungsineffizienz und Probleme mit fehlendem Wortschatz.
Wenn ein großes reines NLP-Modell (wie LLaMA) von Englisch auf Chinesisch übergeht (eine „Fremdsprache“ für das große Modell), muss das Textvokabular erweitert werden, um bessere Ergebnisse zu erzielen, da das ursprüngliche Vokabular, das Chinesisch codiert, ineffizient ist.
Das Forschungsteam hat sich davon inspirieren lassen
Jetzt steht das auf dem visuellen CLIP-Vokabular basierende multimodale große Modell vor dem gleichen Problem und stößt auf „fremdsprachige Bilder“, wie z. B. eine dicht gepackte Seite Wenn Sie Text in einer Arbeit verwenden, ist es schwierig, Bilder effizient zu tokenisieren.
Vary ist eine Lösung zur Lösung dieses Problems. Es kann das visuelle Vokabular effizient erweitern, ohne das ursprüngliche Vokabular wiederherzustellen.
Bilder funktioniert in zwei Phasen:
Vary wird auf öffentlichen Datensätzen und gerenderten Dokumentdiagrammen trainiert und verbessert die Feinkörnigkeit erheblich visuelle Wahrnehmungsfähigkeiten.
Während die multimodalen Vanilla-Funktionen erhalten bleiben, bietet es durchgängige chinesische und englische Bild-, Formel-Screenshots- und Diagrammverständnisfunktionen.
Darüber hinaus stellte das Forschungsteam fest, dass der Seiteninhalt, der ursprünglich möglicherweise Tausende von Token erforderte, durch Dokumentbilder eingegeben wurde und die Informationen in 256 Bildtoken komprimiert wurden, was auch mehr Fantasie für die weitere Seitenanalyse und den Zusammenfassungsraum bot.
Derzeit sind Varys Code und Modell Open Source, und es wird auch eine Webdemo bereitgestellt, die jeder ausprobieren kann.
Interessierte Freunde können es ausprobieren~
Das obige ist der detaillierte Inhalt vonDas multimodale Open-Source-Großmodell von Megvii unterstützt OCR auf Dokumentebene und deckt Chinesisch und Englisch ab. Markiert es das Ende von OCR?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Nutzung der Leistung der Datenvisualisierung mit Microsoft Power BI -Diagrammen In der heutigen datengesteuerten Welt ist es entscheidend, komplexe Informationen effektiv mit nicht-technischem Publikum zu kommunizieren. Die Datenvisualisierung schließt diese Lücke und transformiert Rohdaten i

Expertensysteme: Ein tiefes Eintauchen in die Entscheidungsfunktion der KI Stellen Sie sich vor, Zugang zu Expertenberatung zu irgendetwas, von medizinischen Diagnosen bis hin zur Finanzplanung. Das ist die Kraft von Expertensystemen in der künstlichen Intelligenz. Diese Systeme imitieren den Profi

Zunächst ist es offensichtlich, dass dies schnell passiert. Verschiedene Unternehmen sprechen über die Proportionen ihres Code, die derzeit von KI verfasst wurden, und diese nehmen mit einem schnellen Clip zu. Es gibt bereits viel Arbeitsplatzverschiebung

Die Filmindustrie befindet sich neben allen kreativen Sektoren vom digitalen Marketing bis hin zu sozialen Medien an einer technologischen Kreuzung. Als künstliche Intelligenz beginnt, jeden Aspekt des visuellen Geschichtenerzählens umzugestiegen und die Landschaft der Unterhaltung zu verändern

Der kostenlose KI/ML -Online -Kurs von ISRO: Ein Tor zu Geospatial Technology Innovation Die Indian Space Research Organization (ISRO) bietet durch ihr indisches Institut für Fernerkundung (IIRS) eine fantastische Gelegenheit für Studenten und Fachkräfte

Lokale Suchalgorithmen: Ein umfassender Leitfaden Die Planung eines groß angelegten Ereignisses erfordert eine effiziente Verteilung der Arbeitsbelastung. Wenn herkömmliche Ansätze scheitern, bieten lokale Suchalgorithmen eine leistungsstarke Lösung. In diesem Artikel wird Hill Climbing und Simul untersucht

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Der Chip Giant Nvidia sagte am Montag, es werde zum ersten Mal in den USA die Herstellung von KI -Supercomputern - Maschinen mit der Verarbeitung reichlicher Daten herstellen und komplexe Algorithmen ausführen. Die Ankündigung erfolgt nach Präsident Trump SI


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)