検索
ホームページテクノロジー周辺機器AIチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

画像理解の分野では、マルチモーダル大型モデルがその優れた性能を遺憾なく発揮しています。しかし、仕事で頻繁に扱われる図の理解と生成タスクに関しては、既存のマルチモーダル モデルにはまだ改善の余地があります。

グラフ理解の分野における現在の最先端のモデルは、単純なテスト セットでは良好に機能しますが、より複雑な質問と回答のタスクを処理することはできません。言語理解と出力能力の欠如。一方で、大規模な言語モデルに基づいてトレーニングされたマルチモーダル大規模モデルのパフォーマンスも満足のいくものではありません。これは、主にグラフのトレーニング サンプルが不足していることが原因です。これらの問題は、チャートの理解と生成タスクにおけるマルチモーダル モデルの継続的な進歩を著しく制限しています。

最近、テンセント、南洋理工大学、東南大学が ChartLlama を提案しました。研究チームは高品質のグラフ データセットを作成し、グラフの理解と生成タスクに焦点を当てたマルチモーダル大規模言語モデルをトレーニングしました。 ChartLlama は、言語処理やチャート生成などの複数の機能を組み合わせて、科学研究者や関連専門家に強力な研究ツールを提供します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

紙のアドレス: https://arxiv.org/abs/2311.16483

ホームページのアドレス: https://tingxueronghua.github.io/ChartLlama/

ChartLlama チームは、GPT-4 を使用して特定のテーマ、分布、傾向を持つデータを生成する、賢明で多様なデータ収集戦略を設計しました。データセットの多様性を確保するためのデータの量。チームは、オープンソースのプロット ライブラリと GPT-4 のプログラミング機能を組み合わせて、正確なグラフ コードを記述し、正確なグラフィック データ表現を生成しました。さらに、チームは GPT-4 を使用してチャートの内容を記述し、質問と回答のペアを生成し、トレーニングされたモデルがチャートを完全に理解できるようにするため、チャートごとに豊富で多様なトレーニング サンプルを生成しました。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手##チャート理解の分野では、従来のモデルは、数値の読み取りやその他の単純な質問と回答のタスクなど、いくつかの単純な質問のみを完了でき、より複雑な質問には答えることができません。これらのモデルは長い命令に従うことが難しく、数学的演算を伴う質問や回答で間違いを犯すことがよくあります。対照的に、ChartLlama はこれらの問題を効果的に回避できます。具体的な比較は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手研究チームは、従来のタスクに加えて、いくつかのタスクも定義しました。新しいタスク。これには、チャート生成に関連する 3 つのタスクが含まれます。この文書には、関連する例が記載されています。

##チャート例を生成するプロセスは、指示と生データに基づいています

ChartLlama は、さまざまなベンチマーク データ セットで良好に動作し、最先端のレベルに達しています。また、必要なトレーニング データの量も少なくなります。柔軟なデータ生成と収集方法を採用し、チャートの理解と生成タスクにおけるチャートの種類とタスクの種類を大幅に拡張し、フィールドの開発を促進します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手手法の概要

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

ChartLlama は、GPT-4 の強力な言語とプログラミング機能を活用して、豊富なマルチモーダル チャート データセットを作成する柔軟なデータ収集方法を設計しました。

ChartLlama のデータ収集は 3 つの主要なフェーズで構成されます:

  • グラフ データの生成: ChartLlama は、従来のデータ ソースからデータを収集するだけでなく、GPT-4 の機能を活用して合成データを生成します。 GPT-4 は、トピック、分布、トレンドなどの特定の機能を提供することで、多様でバランスのとれたチャート データを生成するようにガイドされています。生成されたデータには既知のデータ分布特性が含まれているため、指示データの構築がより柔軟かつ多様になります。
  • チャートの生成: 次に、GPT-4 の強力なプログラミング機能を使用し、オープン ソース ライブラリ (Matplotlib など) を使用して、生成されたデータに基づいてチャートを作成します。描画スクリプトにより、注意深くレンダリングされた一連の図が作成されました。チャートの描画は完全にオープンソース ツールに基づいているため、このアルゴリズムはトレーニング用にさらに多くの種類のチャートを生成できます。 3 つのチャート タイプのみをサポートする ChatQA などの既存のデータ セットと比較して、ChartLlama によって構築されたデータ セットは最大 10 のチャート タイプをサポートし、任意に拡張できます。
  • 指示データの生成: チャートのレンダリングに加えて、ChartLlama はさらに GPT-4 を使用してチャートの内容を記述し、トレーニングを確実にするためにさまざまな質問と回答のデータを構築します。実績のあるモデルはグラフを完全に理解できます。この包括的な命令に適応したコーパスには、説明文、質問と回答のペア、および図のソース コードまたは修正コードが組み込まれています。過去のデータ セットは 1 ~ 3 個のグラフ理解タスクのみをサポートしますが、ChartLlama は最大 10 個のグラフ理解および生成タスクをサポートします。これにより、アイコン内の情報を理解するために大規模なグラフィックスおよびテキスト モデルをトレーニングするのに役立ちます

#上記の手順を使用して、ChartLlama は複数のタスクと複数のグラフ タイプを含むデータセットを構築しました。データ セット全体におけるさまざまな種類のタスクとグラフの割合は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

詳細な手順と詳細については、元の論文を参照してください。手順

実験結果

従来のタスクであっても、新しいタスクであっても、ChartLlama は最も優れていることを実証しました。パフォーマンス。従来のタスクには、グラフの質疑応答、グラフの概要、グラフの構造化データの抽出が含まれます。 ChartLlama を以前の最先端のモデルと比較した結果は以下のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究者らはまた、ChartLlama の独自のタスク機能も評価しました。チャートコードの生成、チャートの要約、チャートの編集。また、対応するタスクのテスト セットを作成し、現在最も強力なオープン ソースのグラフィックおよびテキスト モデルである LLaVA-1.5 と比較しました。結果は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究チームは、さまざまな種類のチャートで ChartLlama の質問と回答の精度をテストし、以前の SOTA モデルと比較しました。 Unichart を提案されたベースライン モデルと比較した結果は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

全体的に見て、ChartLlama はマルチモーダル学習の限界を押し広げるだけではありません。 、また、チャートの理解と生成のためのより正確かつ効率的なツールも提供します。学術論文でも企業プレゼンテーションでも、ChartLlama を使用すると、グラフの理解と作成がより直観的かつ効率的になり、複雑な視覚データの生成と解釈において重要な一歩を踏み出すことができます。

興味のある読者は、論文の原文にアクセスして、さらに研究内容を入手できます

以上がチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。