ホームページ >テクノロジー周辺機器 >AI >リアルタイムデータの使用における主な課題

リアルタイムデータの使用における主な課題

王林転載: 2023-04-13 08:07:071283ブラウズ

リアルタイムデータの分析は、最新のデータを使用して推論の精度を向上させようとする ML モデルを扱う人々にとって、常に課題となってきました。

リアルタイムデータは手動分析やデータ整理用の従来のソフトウェアでは配信が速すぎるため、大量のストリーミングデータを理解できるのは AI と ML だけです。しかし、リアルタイムデータの操作は ML モデルの最も価値のあるアプリケーションの 1 つですが、データ分析にツールを活用しようとしている人にとっては、いくつかの疑問が生じます。

次に、リアルタイムデータを使用しようとする人々が直面する主要な課題のいくつかと、それらを克服する可能性のある方法について説明します。

企業はどのようなユースケースでストリーミングデータを使用する必要があるかバッチデータの代わりに?全体として、データストリームは、リアルタイムの自動化された意思決定に使用できます。これには、複雑なデータセットに対する実稼働環境での機械学習モデルの活用が含まれる場合があります。この例としては、高頻度取引におけるアルゴリズム取引、医療機器における異常検出、サイバーセキュリティにおける侵入検出、電子商取引の変換/保持モデルなどが挙げられます。したがって、バッチデータの操作は「その他すべて」に該当し、リアルタイムの意思決定とコンテキストは、分析する大量のデータほど重要ではありません。したがって、バッチデータの操作は「その他すべて」のカテゴリに分類され、リアルタイムの意思決定やコンテキストは重要ではなく、むしろ大量のデータが分析されます。この例には、需要予測、顧客のセグメンテーション、マルチタッチアトリビューションなどがあります。

リアルタイムデータ使用の課題

リアルタイムデータを使用して連続データストリームで ML モデルをトレーニングすると、変化に素早く適応し、データストレージスペースを節約できるという利点がありますが、課題もあります。モデルをリアルタイムデータに変換すると、追加のオーバーヘッドが発生する可能性があり、これらの課題を適切に考慮しないと理想的な結果が得られない可能性があります。

リアルタイムの定義

リアルタイムデータの操作には、リアルタイムデータ自体の概念から始まるいくつかの課題があります。「リアルタイム」という言葉に対する理解は人によって異なります。分析環境では、リアルタイムとはすぐに答えが得られることだと考える人もいるかもしれませんが、データが収集されてから分析システムが応答するまで数分待っても気にしない人もいます。

リアルタイムのこれらの異なる定義は、不明確な結果につながる可能性があります。リアルタイム分析に対する管理チームの期待と理解が、それを実装しているチームと異なるシナリオを考えてみましょう。定義が不明確だと、対処できる潜在的なユースケースやビジネス活動 (現在および将来) が不確実になります。

一定のデータ速度と量の変動

一般的に、リアルタイムデータは一定の速度や量で流れるわけではなく、それがどのように動作するかを予測するのは困難です。バッチデータの処理とは異なり、パイプラインで欠陥が発見されるまで常にタスクを再起動することは現実的ではありません。データは常に流れているため、データ処理中にエラーが発生すると、結果にドミノ効果が生じる可能性があります。

リアルタイムデータ処理段階の制限された性質により、標準的なトラブルシューティング手順がさらに妨げられます。そのため、テストで予期しないエラーをすべて検出できるわけではありませんが、新しいテストプラットフォームでは問題をより適切に規制し、軽減できます。

データ品質

リアルタイムデータから有益な洞察を得ることができるかどうかは、データの品質にも依存します。不十分なデータ収集がパイプライン全体のパフォーマンスに影響を与えるのと同様に、データ品質の欠如は分析ワークフロー全体に影響を与える可能性があります。間違ったデータからビジネス上の結論を導き出すことほど悪いことはありません。

責任を共有し、データへのアクセスを民主化することで、データの正確性、包括性、完全性に重点を置くことができます。効果的なソリューションでは、あらゆる部門の全員が正確なデータの価値を認識し、データ品質の維持に責任を負うことが奨励されます。さらに、信頼できるデータソースのみが使用されるようにするには、自動化された手順を使用して、同様の品質ポリシーをリアルタイムデータに適用する必要があります。これにより、不必要な分析作業が削減されます。

さまざまなデータソースと形式

データ形式の多様性とデータソースの数の増加により、リアルタイムデータ処理パイプラインは問題に直面する可能性があります。たとえば、電子商取引では、アクティビティ監視ツール、電子アクティビティトラッカー、消費者行動モデルはすべて、オンライン世界での Web アクティビティを追跡します。同様に、製造現場では、さまざまなデバイスからパフォーマンスデータを収集するために、さまざまな IoT デバイスが使用されます。これらのユースケースはすべて、データ収集方法が異なり、多くの場合、データ形式も異なります。

これらのデータの変更により、API 仕様の変更やセンサーのファームウェアの更新により、リアルタイムデータフローが中断される可能性があります。誤った分析や将来の問題を回避するには、イベントを記録できない状況をリアルタイムデータで考慮する必要があります。

時代遅れのテクノロジー

さまざまな新しい情報源がビジネスに問題を引き起こします。受信データを分析するための現在のプロセスの規模は大幅に拡大しました。オンプレミスまたはクラウドの情報レイクを使用して情報を収集および準備するには、予想よりも多くのテストが必要になる場合があります。

この問題は主にレガシーシステムとテクノロジの使用に起因しており、情報を取得して同期し、アプリケーションに情報を伝達するために必要な検査パイプラインを作成するには、ますます拡大する熟練した情報設計者とエンジニアの軍勢が必要です。

リアルタイムデータの処理特有の課題を考慮すると、組織は、最も効果的な方法で AI および ML モデルを展開および管理するのにどのツールが役立つかを検討する必要があります。チームの誰もがリアルタイムのメトリクスと分析を活用して、ML パフォーマンスを追跡、測定し、改善できる使いやすいインターフェイスが理想的です。

実稼働環境で使用されるデータのリアルタイム監査証跡などの基本的な可観測性機能は、チームが障害の根本原因を簡単に特定するのに役立ちます。最終的に、企業の競争力は、モデルのパフォーマンスを可視化しながら、大量のデータに最適化されたデータ処理パイプラインを通じて、リアルタイムデータから実用的なビジネスインサイトを導き出せる能力にかかっています。

以上がリアルタイムデータの使用における主な課題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：スマートカーの開発動向と主流技術を振り返る記事次の記事：スマートカーの開発動向と主流技術を振り返る記事

続きを見る

リアルタイム データの使用における主な課題

リアルタイム データ使用の課題

リアルタイムの定義

一定のデータ速度と量の変動

データ品質

さまざまなデータ ソースと形式

時代遅れのテクノロジー

関連記事

リアルタイムデータの使用における主な課題

リアルタイムデータ使用の課題

さまざまなデータソースと形式