画像理解の分野では、マルチモーダル大型モデルがその優れた性能を遺憾なく発揮しています。しかし、仕事で頻繁に扱われる図の理解と生成タスクに関しては、既存のマルチモーダル モデルにはまだ改善の余地があります。
グラフ理解の分野における現在の最先端のモデルは、単純なテスト セットでは良好に機能しますが、より複雑な質問と回答のタスクを処理することはできません。言語理解と出力能力の欠如。一方で、大規模な言語モデルに基づいてトレーニングされたマルチモーダル大規模モデルのパフォーマンスも満足のいくものではありません。これは、主にグラフのトレーニング サンプルが不足していることが原因です。これらの問題は、チャートの理解と生成タスクにおけるマルチモーダル モデルの継続的な進歩を著しく制限しています。
最近、テンセント、南洋理工大学、東南大学が ChartLlama を提案しました。研究チームは高品質のグラフ データセットを作成し、グラフの理解と生成タスクに焦点を当てたマルチモーダル大規模言語モデルをトレーニングしました。 ChartLlama は、言語処理やチャート生成などの複数の機能を組み合わせて、科学研究者や関連専門家に強力な研究ツールを提供します。
紙のアドレス: https://arxiv.org/abs/2311.16483
ホームページのアドレス: https://tingxueronghua.github.io/ChartLlama/
ChartLlama チームは、GPT-4 を使用して特定のテーマ、分布、傾向を持つデータを生成する、賢明で多様なデータ収集戦略を設計しました。データセットの多様性を確保するためのデータの量。チームは、オープンソースのプロット ライブラリと GPT-4 のプログラミング機能を組み合わせて、正確なグラフ コードを記述し、正確なグラフィック データ表現を生成しました。さらに、チームは GPT-4 を使用してチャートの内容を記述し、質問と回答のペアを生成し、トレーニングされたモデルがチャートを完全に理解できるようにするため、チャートごとに豊富で多様なトレーニング サンプルを生成しました。
##チャート理解の分野では、従来のモデルは、数値の読み取りやその他の単純な質問と回答のタスクなど、いくつかの単純な質問のみを完了でき、より複雑な質問には答えることができません。これらのモデルは長い命令に従うことが難しく、数学的演算を伴う質問や回答で間違いを犯すことがよくあります。対照的に、ChartLlama はこれらの問題を効果的に回避できます。具体的な比較は次のとおりです:
研究チームは、従来のタスクに加えて、いくつかのタスクも定義しました。新しいタスク。これには、チャート生成に関連する 3 つのタスクが含まれます。この文書には、関連する例が記載されています。
ChartLlama は、さまざまなベンチマーク データ セットで良好に動作し、最先端のレベルに達しています。また、必要なトレーニング データの量も少なくなります。柔軟なデータ生成と収集方法を採用し、チャートの理解と生成タスクにおけるチャートの種類とタスクの種類を大幅に拡張し、フィールドの開発を促進します。
手法の概要
ChartLlama のデータ収集は 3 つの主要なフェーズで構成されます:
- グラフ データの生成: ChartLlama は、従来のデータ ソースからデータを収集するだけでなく、GPT-4 の機能を活用して合成データを生成します。 GPT-4 は、トピック、分布、トレンドなどの特定の機能を提供することで、多様でバランスのとれたチャート データを生成するようにガイドされています。生成されたデータには既知のデータ分布特性が含まれているため、指示データの構築がより柔軟かつ多様になります。
- チャートの生成: 次に、GPT-4 の強力なプログラミング機能を使用し、オープン ソース ライブラリ (Matplotlib など) を使用して、生成されたデータに基づいてチャートを作成します。描画スクリプトにより、注意深くレンダリングされた一連の図が作成されました。チャートの描画は完全にオープンソース ツールに基づいているため、このアルゴリズムはトレーニング用にさらに多くの種類のチャートを生成できます。 3 つのチャート タイプのみをサポートする ChatQA などの既存のデータ セットと比較して、ChartLlama によって構築されたデータ セットは最大 10 のチャート タイプをサポートし、任意に拡張できます。
-
指示データの生成: チャートのレンダリングに加えて、ChartLlama はさらに GPT-4 を使用してチャートの内容を記述し、トレーニングを確実にするためにさまざまな質問と回答のデータを構築します。実績のあるモデルはグラフを完全に理解できます。この包括的な命令に適応したコーパスには、説明文、質問と回答のペア、および図のソース コードまたは修正コードが組み込まれています。過去のデータ セットは 1 ~ 3 個のグラフ理解タスクのみをサポートしますが、ChartLlama は最大 10 個のグラフ理解および生成タスクをサポートします。これにより、アイコン内の情報を理解するために大規模なグラフィックスおよびテキスト モデルをトレーニングするのに役立ちます
#上記の手順を使用して、ChartLlama は複数のタスクと複数のグラフ タイプを含むデータセットを構築しました。データ セット全体におけるさまざまな種類のタスクとグラフの割合は次のとおりです。
詳細な手順と詳細については、元の論文を参照してください。手順
実験結果
従来のタスクであっても、新しいタスクであっても、ChartLlama は最も優れていることを実証しました。パフォーマンス。従来のタスクには、グラフの質疑応答、グラフの概要、グラフの構造化データの抽出が含まれます。 ChartLlama を以前の最先端のモデルと比較した結果は以下のとおりです:
研究者らはまた、ChartLlama の独自のタスク機能も評価しました。チャートコードの生成、チャートの要約、チャートの編集。また、対応するタスクのテスト セットを作成し、現在最も強力なオープン ソースのグラフィックおよびテキスト モデルである LLaVA-1.5 と比較しました。結果は次のとおりです:
研究チームは、さまざまな種類のチャートで ChartLlama の質問と回答の精度をテストし、以前の SOTA モデルと比較しました。 Unichart を提案されたベースライン モデルと比較した結果は次のとおりです。
全体的に見て、ChartLlama はマルチモーダル学習の限界を押し広げるだけではありません。 、また、チャートの理解と生成のためのより正確かつ効率的なツールも提供します。学術論文でも企業プレゼンテーションでも、ChartLlama を使用すると、グラフの理解と作成がより直観的かつ効率的になり、複雑な視覚データの生成と解釈において重要な一歩を踏み出すことができます。
興味のある読者は、論文の原文にアクセスして、さらに研究内容を入手できます
以上がチャートの深い理解: ChartLlama、Tencent や Nanyang Polytechnic などのオープンソースのチャート大手の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい

ドリームウィーバー CS6
ビジュアル Web 開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、
