Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

王林
王林nach vorne
2023-12-03 11:22:481473Durchsuche

Im Bereich des Bildverständnisses haben multimodale Großmodelle ihre hervorragende Leistung voll unter Beweis gestellt. Es gibt jedoch noch Raum für Verbesserungen bei bestehenden multimodalen Modellen für das Diagrammverständnis und die Generierungsaufgaben, die häufig in der Arbeit behandelt werden.

Obwohl die aktuellen State-of-the-Art-Modelle im Bereich des Graphverständnisses bei einfachen Testsätzen gut funktionieren, sind sie aufgrund mangelnder Sprachverständnis- und Ausgabefähigkeiten nicht in der Lage, komplexere Frage- und Antwortaufgaben zu bewältigen. Andererseits ist auch die Leistung multimodaler großer Modelle, die auf der Grundlage großer Sprachmodelle trainiert wurden, unbefriedigend, was hauptsächlich auf das Fehlen von Trainingsbeispielen für Diagramme zurückzuführen ist. Diese Probleme haben den kontinuierlichen Fortschritt multimodaler Modelle beim Diagrammverständnis und bei der Erstellung von Aufgaben erheblich eingeschränkt.

Kürzlich haben Tencent, die Nanyang Technological University und die Southeast University ChartLlama vorgeschlagen. Das Forschungsteam erstellte einen hochwertigen Graphdatensatz und trainierte ein multimodales, groß angelegtes Sprachmodell, das sich auf das Verstehen und Generieren von Graphen konzentriert. ChartLlama kombiniert mehrere Funktionen wie Sprachverarbeitung und Diagrammerstellung, um ein leistungsstarkes Forschungstool für wissenschaftliche Forscher und verwandte Fachleute bereitzustellen.

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Papieradresse: https://arxiv.org/abs/2311.16483

Homepage-Adresse: https://tingxueronghua.github.io/ChartLlama/

Das ChartLlama-Team hat eine entworfen Eine clevere, diversifizierte Datenerfassungsstrategie, die GPT-4 nutzt, um Daten mit spezifischen Themen, Verteilungen und Trends zu generieren, um die Vielfalt des Datensatzes sicherzustellen. Das Team kombinierte Open-Source-Plotbibliotheken mit den Programmierfunktionen von GPT-4, um präzisen Diagrammcode zu schreiben und genaue grafische Datendarstellungen zu erstellen. Darüber hinaus verwendet das Team GPT-4 auch zur Beschreibung von Diagramminhalten und zur Generierung von Frage- und Antwortpaaren. Dabei werden umfangreiche und vielfältige Trainingsbeispiele für jedes Diagramm generiert, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann Im Bereich des Diagrammverständnisses können herkömmliche Modelle nur einige einfache Fragen beantworten, z. B. einfache Frage- und Antwortaufgaben wie das Lesen von Zahlen, und komplexere Fragen nicht beantworten. Diese Modelle haben Schwierigkeiten, langen Anweisungen zu folgen, und machen häufig Fehler bei Fragen und Antworten, die mathematische Operationen beinhalten. Im Gegensatz dazu kann ChartLlama diese Probleme effektiv vermeiden:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Zusätzlich zu den herkömmlichen Aufgaben definierte das Forschungsteam auch mehrere neue Aufgaben, darunter drei Aufgaben zur Diagrammerstellung. Das Papier enthält relevante Beispiele:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Anhand eines Diagramms und Anweisungen, Beispiele für die Diagrammrekonstruktion und Diagrammbearbeitung

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang PolytechnicDer Prozess der Generierung von Diagrammbeispielen basiert auf Anweisungen und Rohdaten.

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic ChartLlama führt aus eignet sich gut für verschiedene Benchmark-Datensätze und erreicht eine Leistung auf dem neuesten Stand, während gleichzeitig weniger Trainingsdaten benötigt werden. Es verwendet eine flexible Datengenerierungs- und -erfassungsmethode, erweitert die Diagrammtypen und Aufgabentypen bei Diagrammverständnis- und -generierungsaufgaben erheblich und fördert die Entwicklung des Feldes

Übersicht über die Methode

ChartLlama hat eine flexible Datenerfassung entwickelt Methoden, die die leistungsstarken Sprach- und Programmierfunktionen von GPT-4 nutzen, um umfangreiche multimodale Diagrammdatensätze zu erstellen.

Die Datenerfassung von ChartLlama besteht aus drei Hauptphasen:

  • Erstellung von Diagrammdaten: ChartLlama sammelt nicht nur Daten aus herkömmlichen Datenquellen, sondern nutzt auch die Leistungsfähigkeit von GPT-4, um synthetische Daten zu generieren. GPT-4 ist darauf ausgerichtet, durch die Bereitstellung spezifischer Funktionen wie Themen, Verteilungen und Trends vielfältige und ausgewogene Diagrammdaten zu erstellen. Da die generierten Daten bekannte Datenverteilungsmerkmale enthalten, wird die Konstruktion von Befehlsdaten flexibler und vielfältiger.
  • Diagrammgenerierung: Verwenden Sie als Nächstes die leistungsstarken Programmierfunktionen von GPT-4, verwenden Sie Open-Source-Bibliotheken (z. B. Matplotlib), um Diagrammzeichnungsskripte basierend auf den generierten Daten und Funktionsdokumenten zu schreiben, und generieren Sie sorgfältig eine Reihe von Diagrammen gerenderte Diagramme. Da das Zeichnen von Diagrammen vollständig auf Open-Source-Tools basiert, kann dieser Algorithmus mehr Diagrammtypen für das Training generieren. Im Vergleich zu bestehenden Datensätzen wie ChatQA, die nur drei Diagrammtypen unterstützen, unterstützt der von ChartLlama erstellte Datensatz bis zu 10 Diagrammtypen und kann beliebig erweitert werden.
  • Anweisungsdatengenerierung: Zusätzlich zur Diagrammdarstellung verwendet ChartLlama GPT-4 außerdem zur Beschreibung von Diagramminhalten und zur Erstellung verschiedener Frage- und Antwortdaten, um sicherzustellen, dass das trainierte Modell das Diagramm vollständig verstehen kann. Dieses umfassende, an Anweisungen angepasste Korpus enthält narrativen Text, Frage-Antwort-Paare sowie Quell- oder modifizierten Code für Diagramme. Frühere Datensätze unterstützten nur 1–3 Aufgaben zum Verstehen von Diagrammen, während ChartLlama bis zu 10 Aufgaben zum Verstehen und Generieren von Diagrammen unterstützt, wodurch große Grafik- und Textmodelle besser trainiert werden können, um die Informationen in den Symbolen zu verstehen Mit den oben genannten Schritten hat ChartLlama einen Datensatz erstellt, der mehrere Aufgaben und mehrere Diagrammtypen enthält. Die Anteile verschiedener Arten von Aufgaben und Diagrammen am Gesamtdatensatz sind wie folgt:
Ausführlichere Anweisungen und Anweisungen finden Sie im Originalpapier.

Experimentelle Ergebnisse

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Ob Es ist traditionell. Unabhängig davon, ob die Aufgabe neu oder neu ist, zeigt ChartLlama die beste Leistung. Zu den traditionellen Aufgaben gehören Diagramm-Fragen und -Antworten, Diagrammzusammenfassungen und die strukturierte Datenextraktion von Diagrammen. Beim Vergleich von ChartLlama mit früheren hochmodernen Modellen sind die Ergebnisse in der folgenden Abbildung dargestellt:

Die Forscher bewerteten auch die einzigartigen Aufgabenfunktionen von ChartLlama, einschließlich der Generierung von Diagrammcode, der Zusammenfassung von Diagrammen und der Bearbeitung von Diagrammen. Außerdem erstellten sie einen Testsatz für die entsprechende Aufgabe und verglichen ihn mit LLaVA-1.5, dem derzeit leistungsstärksten Open-Source-Grafik- und Textmodell. Hier sind die Ergebnisse:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Das Forschungsteam testete die Frage-Antwort-Genauigkeit von ChartLlama in verschiedenen Diagrammtypen und verglich sie mit dem vorherigen SOTA-Modell Unichart und dem vorgeschlagenen Basismodell. Die Ergebnisse sind wie folgt:

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Insgesamt erweitert ChartLlama nicht nur die Grenzen des multimodalen Lernens, sondern bietet auch genauere und effizientere Tools für das Verständnis und die Erstellung von Diagrammen. Ob beim wissenschaftlichen Schreiben oder bei Unternehmenspräsentationen, ChartLlama macht das Verständnis und die Erstellung von Diagrammen intuitiver und effizienter und macht einen wichtigen Schritt nach vorne bei der Generierung und Interpretation komplexer visueller Daten.

Interessierte Leser können für weitere Forschungsinhalte den Originaltext des Artikels aufrufen

Umfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic

Das obige ist der detaillierte Inhalt vonUmfassendes Verständnis von Diagrammen: ChartLlama, Open-Source-Diagrammgiganten wie Tencent und Nanyang Polytechnic. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen