AI データ視覚化の未来

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-10-31 03:09:011176ブラウズ

The future of AI data visualization

LLM が登場して以来、最初のユースケース/デモの 1 つはデータ分析でした。現段階では、私たちのほとんどは ChatGPT、Claude、またはその他の AI を使用してチャートを生成していますが、データ視覚化において AI が果たす役割についてはまだ結論が出ていないように感じます。今後もデフォルトでポイント アンド クリック グラフを作成し続けるのでしょうか? AIはチャートを100%生成するのでしょうか?それとも、将来のハイブリッドでは、AI 生成とポイント アンド クリックが混在するのでしょうか?

AI およびデータ視覚化分野の創設者として、私はこのトピックがほぼ不可欠であると考えています。 2022 年以降 (つまり、LLM が本格的に登場した後) に設立された私たちは、チャートをどのように扱うかについて決定を下す必要があります。チャート機能を開発するために何時間も開発作業 (および資金) を投資するのでしょうか、それともそれはなくなり、LLM より前に構築されたすべてのツールの埋没コストとなるのでしょうか?それとも未来はハイブリッドになるのでしょうか?私は最近、Data Formulator という研究プロジェクトに出会いました。このプロジェクトでは、AI と従来のグラフ作成の間の非常に興味深い相互作用を調査しており、この疑問が私に甦りました。

この投稿では、テキストからグラフへ (またはテキストから視覚化) の現在の状況と、将来どこへ向かうのかを見ていきます。

テキストから視覚化の現状

AI に関するすべてのことと同様、この投稿もあまり古くならないでしょう。今後 6 か月以内に何らかの新しい情報やモデルが発表され、このトピックに対する私たちの考え方が完全に変わるでしょう。それにもかかわらず、データ視覚化と AI のさまざまな状態を見てみましょう。

純粋なポイントアンドクリックのグラフ作成

ほとんどの読者はこの内容をよく知っているので、これについてはあまり長く言いません。 Excel、Google スプレッドシート、または 2023 年より前に構築されたその他のデータ ツールを開くと、これの何らかの形式が得られます。クリックして軸にデータを追加する場合もあれば、フィールドをドラッグ アンド ドロップする場合もありますが、概念は同じです。データを適切に構造化し、いくつかのボタンを押してグラフを生成します。

このパラダイムでは、データのクリーニングと変換の大部分はグラフ作成の前に行われます。一般に、平均、中央値、カウント、最小、最大などの集計指標を適用できますが、すべての変換はかなり初歩的なものです。

100% AI で生成されたグラフ

AI が生成したチャート、つまりテキストから視覚化が実際に存在したのは、現代の LLM の出現以来です (調べてみると、それ以前にも実験が行われていましたが、実際的な目的としては、2022 年以降に焦点を当てることができます) LLM)。

OpenAI の ChatGPT は、Python を使用して非インタラクティブなチャートを生成したり、フロントエンド ライブラリを使用して限定されたインタラクティブ チャートを生成したりできます (いくつかの例については、「OpenAI Canvas」を参照)。 OpenAI のすべてと同様、Anthropic にも独自の類似概念があり、アーティファクトがあります。

ここで、AI によって生成されたチャートは、純粋に Python で生成されたチャート/バックエンドで生成されたチャート、またはバックエンドとフロント エンドの混合の 2 つのファミリーに細分できることに注目してください。

ChatGPT と Claude が交互に働きます。 AI をトレーニングしてフロント エンド コードを生成し、そのフロント エンド コードを統合してビジュアライゼーションを作成することは、plotly、matplotlib、seaborn などのライブラリを使用して Python に依存するよりもはるかに手間がかかる可能性があります。一方、フロントエンド ライブラリを使用すると、プロバイダーとユーザーはグラフの外観と操作性をより詳細に制御できます。これが、LLM プロバイダーが AI に棒グラフ、折れ線グラフ、散布図などの基本的なグラフを生成させる理由ですが、サンキー ダイアグラムやウォーターフォール グラフなどのより高度なグラフは Python に頼ることになります。

Fabi.ai についての簡単なサイドバー: 当社はデータ分析プラットフォームであるため、明らかにグラフ作成を提供しており、一部のポイント アンド クリックによるグラフ作成にもかかわらず、ユーザーが作成したグラフの大部分は AI によって生成されています。これまでのところ、AI はグラフの生成に非常に優れていることがわかっており、グラフ作成に純粋な Python を活用することで、ユーザーが思い描くほぼすべてのグラフを生成するように AI をトレーニングすることができました。これまでのところ、ポイント アンド クリック機能やカスタム UI デザインよりも、その精度と柔軟性を選択してきました。
ハイブリッド: ポイント アンド クリック パラダイムでの AI 生成
ここから、AI によるテキストから視覚化への移行がどこへ向かうのかという議論が興味深くなり始めます。今から 3 年後、誰かが分析を行うときに、AI を使用する場合、AI に 100% の制御を任せるか、それとも AI が制限内でのみチャートを編集できる混合環境で使用されるでしょうか。特定のポイント アンド クリック機能。

このイメージをより具体的にするには、Data Formulator を確認してください。これは、AI が特定の編集を行うことができるが、必要に応じてユーザーがポイント アンド クリック機能を引き継いで使用できる、真の混合環境を提供しようとする最近の研究プロジェクトです。

車に例えて質問すると: 将​​来の車にはハンドルがなくなると思いますか、それともドライバーがそこに座って注意を払い、時にはハンドルを握る必要があると思いますか?テスラの自動運転機能が現在どのように動作するかに似ていますか?

第一原則: 私が真実だと信じていること

物事がどこに向かっているのかという問題は、Fabi.ai にとって非常に重要です。これは、私たちが下す特定の決定に大きな影響を与える可能性があるためです。フロントエンドにチャート ライブラリを統合することに投資するか?そもそもポイントアンドクリック機能を気にする必要があるでしょうか? AI データ分析分野をリードする革新的な成長企業として、私たちはパックが現在どこにいるかではなく、どこへ行くのかを考える必要があります。

したがって、この質問に答えるために、第一原理の考え方を使用してみます。

AI はますます改良、高速化、低コスト化を続けています

初めて AI を使用し、速度とコストに関して不満が生じたときから、私は AI が今後も改良され、より速く、より安価になると信じてきました。大まかに言えば、トークンあたりのコストは過去数年間で年間 87% 減少しました。コストが下がっただけでなく、精度と速度も大幅に向上しました。

今後 10 年で、私たちは 80 年代と 90 年代の「スーパーコンピューター」を振り返るのと同じように、2024 年の LLM を振り返ることになるでしょう。今では、どこに行くにもポケットにスーパーコンピューターが入っています。

以上のことは、上記のさまざまなグラフ作成アプローチのいずれかに賛成または反対する議論は、AI がグラフを生成するには遅すぎる、高価すぎる、または不正確すぎるということではあり得ません。言い換えれば、ポイント アンド クリック グラフが何らかの形でまだ存在すると信じるには、ユーザー エクスペリエンスやユース ケースに、その機能に値する何かがあると信じる必要があります。

データ視覚化の難しい部分は、データのラングリングとクリーニングです。

私の経験では、視覚化を伴うあらゆる形式のデータ分析を行う場合、難しい部分はグラフ作成ではありません。難しいのは、データをクリーンアップして、作成しようとしているグラフに適した形式に準備することです。

次のフィールドを持つユーザー イベント データがあるとします:

  • イベントID
  • イベント開始タイムスタンプ
  • イベント終了タイムスタンプ

ここで、レイテンシを測定するために平均イベント継続時間を時間ごとにプロットしたいとします。スプレッドシートや従来のグラフ作成ツールで何らかのグラフ作成を行う前に、次のことを行う必要があります。

  1. 終了時刻から開始時刻を引いた値を計算します (おそらく最初に何らかの書式設定を行う必要があります)
  2. 時間単位でデータをピボットします。これは実際には驚くほど難しいです

しかし、AI にこれを実行するように依頼すると、それらすべてとグラフ作成がわずか 1 ~ 2 秒で行われます。

# Calculate the event duration in hours
df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600

# Extract the start hour from the start datetime
df['Start hour'] = df['Event start datetime'].dt.hour

# Group by start hour and calculate the average duration
average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index()

# Plot using Plotly
fig = px.bar(
    average_duration_by_hour, 
    x='Start hour', 
    y='Event duration (hours)',
    title='Average Event Duration by Hour',
    labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'},
    text='Event duration (hours)'
)

# Show the figure
fig.show()

これは最も単純な例の 1 つです。多くの場合、現実世界のデータはさらに複雑です。

AI によるテキストから視覚化の未来: 100% AI 生成によるポイント アンド クリック

この時点で、あなたはおそらく私がどちらに傾いているかを感じているでしょう。分析に必要なすべてのデータを備えたデータセットをほぼ適切に作成できる限り、AI はすでに、瞬く間にデータセットを操作してグラフ化するという点で非常に優れた仕事をしています。今から 1 年、2 年、3 年後にこれが標準でなくなるとは想像しにくいです。

そうは言っても、Data Formulator のような興味深いハイブリッド アプローチがいくつか登場しています。このタイプのアプローチの場合は、おそらく、私たちが何を望んでいるのかを考え、AI がその仕事を遂行できるように十分に明確に説明するよりも、私たちの手や脳の方が速く動いて、素早く調整を行うことができるということです。これが地域ごとに分かれた積み上げ棒グラフであることを前提として、「過去 12 か月の月ごとの総売上高を表示してください」と尋ねると、マウスを動かすだけの方が簡単になる可能性があります。その場合は、ハイブリッド アプローチが最も興味深いかもしれません。AI に最初の処理を依頼し、その後数回クリックするだけで、必要なものが得られます。

完全な AI アプローチでもハイブリッド アプローチでも、成功の鍵はユーザー エクスペリエンスにあります。特にハイブリッド アプローチの場合、AI と人間のインタラクションは完全に連携して機能し、ユーザーにとって非常に直感的である必要があります。

今後 12 か月でこの分野が発展し、テキストからビジュアル化がどのような方向に向かうのかを見るのが楽しみです。

以上がAI データ視覚化の未来の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。