検索
ホームページテクノロジー周辺機器AIチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

画像理解の分野では、マルチモーダル大型モデルがその優れた性能を遺憾なく発揮しています。しかし、仕事で頻繁に扱われる図の理解と生成タスクに関しては、既存のマルチモーダル モデルにはまだ改善の余地があります。

グラフ理解の分野における現在の最先端のモデルは、単純なテスト セットでは良好に機能しますが、より複雑な質問と回答のタスクを処理することはできません。言語理解と出力能力の欠如。一方で、大規模な言語モデルに基づいてトレーニングされたマルチモーダル大規模モデルのパフォーマンスも満足のいくものではありません。これは、主にグラフのトレーニング サンプルが不足していることが原因です。これらの問題は、チャートの理解と生成タスクにおけるマルチモーダル モデルの継続的な進歩を著しく制限しています。

最近、テンセント、南洋理工大学、東南大学が ChartLlama を提案しました。研究チームは高品質のグラフ データセットを作成し、グラフの理解と生成タスクに焦点を当てたマルチモーダル大規模言語モデルをトレーニングしました。 ChartLlama は、言語処理やチャート生成などの複数の機能を組み合わせて、科学研究者や関連専門家に強力な研究ツールを提供します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

紙のアドレス: https://arxiv.org/abs/2311.16483

ホームページのアドレス: https://tingxueronghua.github.io/ChartLlama/

ChartLlama チームは、GPT-4 を使用して特定のテーマ、分布、傾向を持つデータを生成する、賢明で多様なデータ収集戦略を設計しました。データセットの多様性を確保するためのデータの量。チームは、オープンソースのプロット ライブラリと GPT-4 のプログラミング機能を組み合わせて、正確なグラフ コードを記述し、正確なグラフィック データ表現を生成しました。さらに、チームは GPT-4 を使用してチャートの内容を記述し、質問と回答のペアを生成し、トレーニングされたモデルがチャートを完全に理解できるようにするため、チャートごとに豊富で多様なトレーニング サンプルを生成しました。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手##チャート理解の分野では、従来のモデルは、数値の読み取りやその他の単純な質問と回答のタスクなど、いくつかの単純な質問のみを完了でき、より複雑な質問には答えることができません。これらのモデルは長い命令に従うことが難しく、数学的演算を伴う質問や回答で間違いを犯すことがよくあります。対照的に、ChartLlama はこれらの問題を効果的に回避できます。具体的な比較は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手研究チームは、従来のタスクに加えて、いくつかのタスクも定義しました。新しいタスク。これには、チャート生成に関連する 3 つのタスクが含まれます。この文書には、関連する例が記載されています。

##チャート例を生成するプロセスは、指示と生データに基づいています

ChartLlama は、さまざまなベンチマーク データ セットで良好に動作し、最先端のレベルに達しています。また、必要なトレーニング データの量も少なくなります。柔軟なデータ生成と収集方法を採用し、チャートの理解と生成タスクにおけるチャートの種類とタスクの種類を大幅に拡張し、フィールドの開発を促進します。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手手法の概要

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

ChartLlama は、GPT-4 の強力な言語とプログラミング機能を活用して、豊富なマルチモーダル チャート データセットを作成する柔軟なデータ収集方法を設計しました。

ChartLlama のデータ収集は 3 つの主要なフェーズで構成されます:

  • グラフ データの生成: ChartLlama は、従来のデータ ソースからデータを収集するだけでなく、GPT-4 の機能を活用して合成データを生成します。 GPT-4 は、トピック、分布、トレンドなどの特定の機能を提供することで、多様でバランスのとれたチャート データを生成するようにガイドされています。生成されたデータには既知のデータ分布特性が含まれているため、指示データの構築がより柔軟かつ多様になります。
  • チャートの生成: 次に、GPT-4 の強力なプログラミング機能を使用し、オープン ソース ライブラリ (Matplotlib など) を使用して、生成されたデータに基づいてチャートを作成します。描画スクリプトにより、注意深くレンダリングされた一連の図が作成されました。チャートの描画は完全にオープンソース ツールに基づいているため、このアルゴリズムはトレーニング用にさらに多くの種類のチャートを生成できます。 3 つのチャート タイプのみをサポートする ChatQA などの既存のデータ セットと比較して、ChartLlama によって構築されたデータ セットは最大 10 のチャート タイプをサポートし、任意に拡張できます。
  • 指示データの生成: チャートのレンダリングに加えて、ChartLlama はさらに GPT-4 を使用してチャートの内容を記述し、トレーニングを確実にするためにさまざまな質問と回答のデータを構築します。実績のあるモデルはグラフを完全に理解できます。この包括的な命令に適応したコーパスには、説明文、質問と回答のペア、および図のソース コードまたは修正コードが組み込まれています。過去のデータ セットは 1 ~ 3 個のグラフ理解タスクのみをサポートしますが、ChartLlama は最大 10 個のグラフ理解および生成タスクをサポートします。これにより、アイコン内の情報を理解するために大規模なグラフィックスおよびテキスト モデルをトレーニングするのに役立ちます

#上記の手順を使用して、ChartLlama は複数のタスクと複数のグラフ タイプを含むデータセットを構築しました。データ セット全体におけるさまざまな種類のタスクとグラフの割合は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

詳細な手順と詳細については、元の論文を参照してください。手順

実験結果

従来のタスクであっても、新しいタスクであっても、ChartLlama は最も優れていることを実証しました。パフォーマンス。従来のタスクには、グラフの質疑応答、グラフの概要、グラフの構造化データの抽出が含まれます。 ChartLlama を以前の最先端のモデルと比較した結果は以下のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究者らはまた、ChartLlama の独自のタスク機能も評価しました。チャートコードの生成、チャートの要約、チャートの編集。また、対応するタスクのテスト セットを作成し、現在最も強力なオープン ソースのグラフィックおよびテキスト モデルである LLaVA-1.5 と比較しました。結果は次のとおりです:

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

研究チームは、さまざまな種類のチャートで ChartLlama の質問と回答の精度をテストし、以前の SOTA モデルと比較しました。 Unichart を提案されたベースライン モデルと比較した結果は次のとおりです。

チャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手

全体的に見て、ChartLlama はマルチモーダル学習の限界を押し広げるだけではありません。 、また、チャートの理解と生成のためのより正確かつ効率的なツールも提供します。学術論文でも企業プレゼンテーションでも、ChartLlama を使用すると、グラフの理解と作成がより直観的かつ効率的になり、複雑な視覚データの生成と解釈において重要な一歩を踏み出すことができます。

興味のある読者は、論文の原文にアクセスして、さらに研究内容を入手できます

以上がチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール