Heim > Artikel > Technologie-Peripheriegeräte > Auf der CCIG2024 löst die Dokumentenanalysetechnologie von Hehe Information das „Hungerproblem“ großer Modellkorpusse
Im Jahr 2024 wird die China Image and Graphics Conference feierlich in der alten Hauptstadt Xi'an eröffnet. Diese Konferenz wurde von der Chinese Image and Graphics Society ausgerichtet und von der Air Force Medical University, der Xi'an Jiaotong University und der Northwestern Polytechnical University ausgerichtet. In mehr als 20 Foren und mehr als 100 Erfolgen lag der Schwerpunkt auf der Darstellung künstlicher Intelligenz in der Produktion. große Modelle und maschinelles Lernen, gehirninspiriertes Rechnen und andere Bereiche der Bildgrafik.
Große Modelltechnologie wird in großem Umfang mit technologischen Innovationen eingesetzt, um den Bildverarbeitungsanforderungen vieler Branchen gerecht zu werden. Während der Konferenz veranstalteten das CSIG-Sonderkomitee für Dokumentbildanalyse und -erkennung und Shanghai Hehe Information Technology Co., Ltd. (bezeichnet als „Hehe Xinheng“) gemeinsam mit Vertretern aus dem Süden das Forum „Großmodelltechnologie und ihre Grenzanwendungen“. Die China University of Technology und Expertenvertreter der Shanghai Jiao Tong University, der Tsinghua University, der Fudan University, des Shanghai Artificial Intelligence Laboratory, der Hehexin University und anderer Universitäten, Forschungseinrichtungen und Unternehmen führten ausführliche Diskussionen über die Entwicklung und Anwendung der Großmodelltechnologie in der Bildfeld.
... Corpus Hidden Crisis“. Epoch Research, eine Gruppe von Forschern im Bereich der künstlichen Intelligenz, schätzt, dass den Datensätzen für maschinelles Lernen bis 2026 die „hochwertigen Sprachdaten“ ausgehen könnten. Zu diesem Zeitpunkt liegt eine große Menge qualitativ hochwertiger Korpusdaten in Büchern, Aufsätzen, Forschungsberichten, Unternehmensdokumenten und anderen Dokumenten vor. Das komplexe Layout und die Struktur schränken den Schulungskorpus ein von großen Modellen Anwendungsfunktionen für die Verarbeitung und Fragen und Antworten zu großen Modelldokumenten. Die Weiterentwicklung der Dokumentenanalyse
Technologie ermöglicht es Maschinen, mehrere Elemente in Dokumenten zu identifizieren, Text, Tabellen,
Bilder usw. besser zu verarbeiten. mehrere Arten von Daten, die Lesereihenfolge des Dokuments wiederherzustellen, Beschleunigen Sie die Schulung und Anwendung großer Modelle. Auf dem Forum stellte Chang Yang, F&E-Direktor der Hehe Information Intelligent Innovation Division, die Arbeit der intelligenten Dokumentenverarbeitungstechnologie von Hehe Information im Bereich Dokumentenanalyse vor und eröffnete den Teilnehmern eine neue technische Perspektive.
"Die Schwierigkeit beim Parsen von Dokumenten besteht darin, die verschiedenen Elemente im Dokument genau zu identifizieren und die logische Beziehung zwischen ihnen zu verstehen. Sie müssen auf 'physische Layoutanalyse' achten und ' Logische Layoutanalyse ' " Laut Chang Yang konzentriert sich die physische Layoutanalyse auf visuelle Merkmale und das Dokumentlayout. Die Hauptaufgabe besteht darin, hochrelevanten Text in einem Bereich zusammenzufassen, beispielsweise in einem Absatz. Eine Tabelle usw. Die Zielerkennungsaufgabe wird für die Modellierung ausgewählt und für die Anpassung wird ein auf Regression basierendes einstufiges Erkennungsmodell verwendet, um verschiedene Layoutmethoden im Dokument zu erhalten. Die logische Layoutanalyse konzentriert sich auf die Analyse der Semantik Funktionen, und die Hauptaufgabe besteht darin, verschiedene Textblöcke zu kombinieren, die entsprechend der Semantik modelliert werden, beispielsweise durch semantische hierarchische Beziehungen, wodurch eine Verzeichnisbaum-Struktur entsteht.
In der Technologie zum Parsen von Dokumenten umfassen Aufgaben wie die Erkennung von Dokumentelementen, die Erkennung von Texttabellen, die Analyse des Dokument-Layouts und die Wiederherstellung der Lesereihenfolge die Beurteilung von Layout-Elementen und des Gesamtlayouts im Bereich der Dokumentenverarbeitung. Durch mehr als zehn Jahre technischer Akkumulation hat Hehe Information elektronische Dateianalyse, gescannte DateienBildverarbeitung, Texterkennung, Tabellenerkennung, Layoutanalyse, Layoutwiederherstellung eröffnet und Schriftsatzlayout und andere intelligente Verarbeitungsprozesse für Dokumente können angesichts elektronischer Dokumente und Scans flexibel Text, Tabellen, drahtlose Tabellen, seitenübergreifende Tabellen, Kopf- und Fußzeilen identifizieren. Formeln, Bilder, Flussdiagramme und andere Layoutelemente, stellen Sie die Lesereihenfolge des Dokuments genau wieder her und bieten Sie genaues Trainingskorpus und DokumentFrage- und AntwortanwendungErfahrung für das große Modellfeld .
Bildunterschrift: Universitätsforscher und Studenten stehen Schlange, um intelligente Dokumentenverarbeitungstechnologie kennenzulernen
„Während unserer Recherche haben wir herausgefunden, dass reale Dokumente äußerst umfangreiche Layouttypen haben und wir nicht einfach einen einzigen verwenden können „Definieren Sie Kategorien wie Doppelspalten und Dreispalten.“ Basierend auf den Forschungsideen wird sich das Hehe Information Technology Team auch weiterhin mit dem Bereich der intelligenten Dokumentenverarbeitung befassen, damit neue Technologien schneller Mehrwert in der Branche schaffen können.
Das obige ist der detaillierte Inhalt vonAuf der CCIG2024 löst die Dokumentenanalysetechnologie von Hehe Information das „Hungerproblem“ großer Modellkorpusse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!