ホームページ  >  記事  >  テクノロジー周辺機器  >  リアルタイム データの使用における主な課題

リアルタイム データの使用における主な課題

王林
王林転載
2023-04-13 08:07:071110ブラウズ

リアルタイム データの使用における主な課題

リアルタイム データの分析は、最新のデータを使用して推論の精度を向上させようとする ML モデルを扱う人々にとって、常に課題となってきました。

リアルタイム データは手動分析やデータ整理用の従来のソフトウェアでは配信が速すぎるため、大量のストリーミング データを理解できるのは AI と ML だけです。しかし、リアルタイム データの操作は ML モデルの最も価値のあるアプリケーションの 1 つですが、データ分析にツールを活用しようとしている人にとっては、いくつかの疑問が生じます。

次に、リアルタイム データを使用しようとする人々が直面する主要な課題のいくつかと、それらを克服する可能性のある方法について説明します。

企業はどのようなユースケースでストリーミング データを使用する必要があるかバッチデータの代わりに?全体として、データ ストリームは、リアルタイムの自動化された意思決定に使用できます。これには、複雑なデータ セットに対する実稼働環境での機械学習モデルの活用が含まれる場合があります。この例としては、高頻度取引におけるアルゴリズム取引、医療機器における異常検出、サイバーセキュリティにおける侵入検出、電子商取引の変換/保持モデルなどが挙げられます。したがって、バッチ データの操作は「その他すべて」に該当し、リアルタイムの意思決定とコンテキストは、分析する大量のデータほど重要ではありません。したがって、バッチ データの操作は「その他すべて」のカテゴリに分類され、リアルタイムの意思決定やコンテキストは重要ではなく、むしろ大量のデータが分析されます。この例には、需要予測、顧客のセグメンテーション、マルチタッチ アトリビューションなどがあります。

リアルタイム データ使用の課題

リアルタイム データを使用して連続データ ストリームで ML モデルをトレーニングすると、変化に素早く適応し、データ ストレージ スペースを節約できるという利点がありますが、課題もあります。モデルをリアルタイム データに変換すると、追加のオーバーヘッドが発生する可能性があり、これらの課題を適切に考慮しないと理想的な結果が得られない可能性があります。

リアルタイムの定義

リアルタイム データの操作には、リアルタイム データ自体の概念から始まるいくつかの課題があります。 「リアルタイム」という言葉に対する理解は人によって異なります。分析環境では、リアルタイムとはすぐに答えが得られることだと考える人もいるかもしれませんが、データが収集されてから分析システムが応答するまで数分待っても気にしない人もいます。

リアルタイムのこれらの異なる定義は、不明確な結果につながる可能性があります。リアルタイム分析に対する管理チームの期待と理解が、それを実装しているチームと異なるシナリオを考えてみましょう。定義が不明確だと、対処できる潜在的なユースケースやビジネス活動 (現在および将来) が不確実になります。

一定のデータ速度と量の変動

一般的に、リアルタイム データは一定の速度や量で流れるわけではなく、それがどのように動作するかを予測するのは困難です。バッチ データの処理とは異なり、パイプラインで欠陥が発見されるまで常にタスクを再起動することは現実的ではありません。データは常に流れているため、データ処理中にエラーが発生すると、結果にドミノ効果が生じる可能性があります。

リアルタイム データ処理段階の制限された性質により、標準的なトラブルシューティング手順がさらに妨げられます。そのため、テストで予期しないエラーをすべて検出できるわけではありませんが、新しいテスト プラットフォームでは問題をより適切に規制し、軽減できます。

データ品質

リアルタイム データから有益な洞察を得ることができるかどうかは、データの品質にも依存します。不十分なデータ収集がパイプライン全体のパフォーマンスに影響を与えるのと同様に、データ品質の欠如は分析ワークフロー全体に影響を与える可能性があります。間違ったデータからビジネス上の結論を導き出すことほど悪いことはありません。

責任を共有し、データへのアクセスを民主化することで、データの正確性、包括性、完全性に重点を置くことができます。効果的なソリューションでは、あらゆる部門の全員が正確なデータの価値を認識し、データ品質の維持に責任を負うことが奨励されます。さらに、信頼できるデータ ソースのみが使用されるようにするには、自動化された手順を使用して、同様の品質ポリシーをリアルタイム データに適用する必要があります。これにより、不必要な分析作業が削減されます。

さまざまなデータ ソースと形式

データ形式の多様性とデータ ソースの数の増加により、リアルタイム データ処理パイプラインは問題に直面する可能性があります。たとえば、電子商取引では、アクティビティ監視ツール、電子アクティビティ トラッカー、消費者行動モデルはすべて、オンライン世界での Web アクティビティを追跡します。同様に、製造現場では、さまざまなデバイスからパフォーマンス データを収集するために、さまざまな IoT デバイスが使用されます。これらのユースケースはすべて、データ収集方法が異なり、多くの場合、データ形式も異なります。

これらのデータの変更により、API 仕様の変更やセンサーのファームウェアの更新により、リアルタイム データ フローが中断される可能性があります。誤った分析や将来の問題を回避するには、イベントを記録できない状況をリアルタイム データで考慮する必要があります。

時代遅れのテクノロジー

さまざまな新しい情報源がビジネスに問題を引き起こします。受信データを分析するための現在のプロセスの規模は大幅に拡大しました。オンプレミスまたはクラウドの情報レイクを使用して情報を収集および準備するには、予想よりも多くのテストが必要になる場合があります。

この問題は主にレガシー システムとテクノロジの使用に起因しており、情報を取得して同期し、アプリケーションに情報を伝達するために必要な検査パイプラインを作成するには、ますます拡大する熟練した情報設計者とエンジニアの軍勢が必要です。

リアルタイム データの処理特有の課題を考慮すると、組織は、最も効果的な方法で AI および ML モデルを展開および管理するのにどのツールが役立つかを検討する必要があります。チームの誰もがリアルタイムのメトリクスと分析を活用して、ML パフォーマンスを追跡、測定し、改善できる使いやすいインターフェイスが理想的です。

実稼働環境で使用されるデータのリアルタイム監査証跡などの基本的な可観測性機能は、チームが障害の根本原因を簡単に特定するのに役立ちます。最終的に、企業の競争力は、モデルのパフォーマンスを可視化しながら、大量のデータに最適化されたデータ処理パイプラインを通じて、リアルタイム データから実用的なビジネス インサイトを導き出せる能力にかかっています。

以上がリアルタイム データの使用における主な課題の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。