首頁 >科技週邊 >人工智慧 >深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

王林轉載: 2023-12-03 11:22:481717瀏覽

在影像理解領域，多模態大模型已經充分展現了其卓越的性能。然而，對於工作中經常需要處理的圖表理解與生成任務，現有的多模態模型仍有進步的空間。

儘管目前在圖表理解領域中，最先進的模型在簡單測試集上表現出色，但是由於它們缺乏語言理解和輸出能力，因此無法勝任更為複雜的問答任務。另一方面，基於大語言模型訓練的多模態大模型的表現也不盡如人意，主要是由於它們缺乏對圖表的訓練樣本。這些問題嚴重限制了多模態模型在圖表理解與生成任務上的持續進步

#近期，騰訊聯合南洋理工大學、東南大學提出了 ChartLlama。研究團隊創建了一個高品質圖表資料集，並訓練了一個專注於圖表理解和生成任務的多模態大型語言模型。 ChartLlama 結合了語言處理與圖表生成等多重效能，為科學研究工作者和相關專業人員提供了一個強大的研究工具。

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

論文網址：https://arxiv.org/abs/2311.16483

主頁網址： https://tingxueronghua.github.io/ChartLlama/

ChartLlama團隊設計了一個巧妙的多元化資料收集策略，利用GPT-4產生具有特定主題、分佈和趨勢的數據，以確保數據集的多樣性。團隊結合了開源的繪圖庫和GPT-4的程式設計能力，編寫出精確的圖表程式碼，以產生準確的圖形化資料表示。此外，團隊還使用GPT-4描述圖表內容並產生問答對，為每個圖表產生了豐富多樣的訓練樣本，以確保經過訓練的模型能夠充分理解圖表

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

在圖表理解領域，傳統模型只能完成一些簡單的問題，如讀取數字等簡單的問答任務，無法回答較為複雜的問題。這些模型難以跟隨較長的指令，同時在涉及數學運算的問答中，也常出現運算錯誤。相較之下，ChartLlama 可以有效地避免這些問題，具體對比如下：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

#除了傳統任務外，研究團隊還定義了若干新任務，其中包括三個任務涉及到圖表生成。論文提供了相關範例：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸給定圖表和指令，進行圖表重建與圖表編輯的範例

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

產生圖表範例的過程是根據指令和原始資料進行的

#ChartLlama 在各種基準資料集上表現出色，達到了最先進的水平，而且所需的訓練資料量也較少。它採用了靈活的數據生成和收集方法，大大擴展了圖表理解和生成任務中的圖表類型和任務種類，為該領域的發展作出了推動

方法概述

ChartLlama 設計了一種靈活的資料收集方法，利用GPT-4 的強大語言能力和程式設計能力，創建了豐富的多模態圖表資料集。

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

ChartLlama 的資料收集包含三個主要階段：

#

圖表數據產生：ChartLlama 不僅從傳統資料來源收集數據，還利用 GPT-4 的能力產生合成數據。透過提供特定的特徵，如主題、分佈和趨勢，從而引導 GPT-4 產生多樣化和平衡的圖表資料。由於產生的資料包含了已知的資料分佈特性，這使得指令資料的建構更加靈活和多樣化。
圖表產生：接著，利用GPT-4 強大的程式設計能力，使用開源函式庫（如Matplotlib）根據已產生的資料和函數文件來編寫圖表繪製腳本，產生了一系列精心渲染的圖表。由於圖表的繪製完全是基於開源工具，因此這種演算法可以產生更多類型的圖表用於訓練。比較已有資料集，例如 ChatQA，只支援三種圖表類型， ChartLlama 所建立的資料集支援多達 10 種圖表類型，而且可以任意擴展。
指令資料產生：除了圖表渲染外，ChartLlama 還進一步利用GPT-4 來描述圖表內容，建構多種多樣的問答數據，以確保訓練過的模型能全面理解圖表。這個全面的指令調整語料庫，融合了敘述文本、問題 - 答案對以及圖表的源代碼或修改後的代碼。過往的資料集只支援1-3 種圖表理解任務，而ChartLlama 支援多達10 種圖表理解與生成任務，能夠更好的幫助訓練圖文大模型理解圖示中的資訊

使用上述步驟，ChartLlama 已經建立了一個包含多種任務和多種圖表類型的資料集。不同類型的任務和圖表在總資料集中所佔的比例如下：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

#請參考論文原文以取得更詳細的指令和說明

實驗結果

#無論是傳統任務還是新的任務，ChartLlama 都展現了最優越的表現。傳統任務包括圖表問答、圖表總結，以及圖表的結構化資料擷取。比較 ChartLlama 和先前最先進的模型，結果如下圖所示：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

研究人員也評估了ChartLlama獨有的任務能力，包括生成圖表代碼、總結圖表和編輯圖表。他們還創建了相應任務的測試集，並與目前最強大的開源圖文模型LLaVA-1.5進行了比較。以下是結果：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

研究團隊在各種不同類型的圖表中測試了ChartLlama的問答準確率，並將其與先前的SOTA模型Unichart和提出的基準模型進行了比較，結果如下：

深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸

#總的來說，ChartLlama 不僅推動了多模態學習的邊界，也為圖表的理解和生成提供了更精確和高效的工具。無論是在學術寫作還是在企業演示中，ChartLlama 都將使圖表的理解和創造變得更加直觀和高效，在產生和解讀複雜視覺數據方面邁出了重要的一步。

有興趣的讀者可以前往論文原文，以獲得更多研究內容

#

以上是深入理解圖表：ChartLlama，騰訊、南洋理工等開源圖表巨獸的詳細內容。更多資訊請關注PHP中文網其他相關文章！

matplotlib github 算法 https gpt

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：一張照片生成視頻，張嘴、點頭、喜怒哀樂，都可以打字控制下一篇：一張照片生成視頻，張嘴、點頭、喜怒哀樂，都可以打字控制

相關文章

看更多