翻訳者 | Bugatti
レビュアー | Sun Shujuan
データ革命は本格化しています。今後 5 年間で作成されるデジタル データの総量は、これまでに作成されたデータの量の 2 倍になり、非構造化データがこの新しいデジタル エクスペリエンスの時代を定義することになります。
#非構造化データとは、従来のモデルに従っていない情報、または構造化データベース形式に適していない情報を指し、すべての新しい企業データの 80% 以上を占めます。この変化に備えるために、多くの企業は、ビジネス分析や人工知能などのさまざまなツールで利用可能なすべてのデータを管理、分析し、最大限に活用する革新的な方法を模索しています。しかし、政策立案者は、古くからある問題にも直面しています。それは、大規模で扱いにくいデータセットの品質をどのように維持し、向上させるかということです。
機械学習が解決策です。機械学習テクノロジーの進歩により、組織は非構造化データを効率的に処理し、品質保証の取り組みを向上できるようになりました。データ革命が目前に迫っている中、あなたの会社はどこで苦労していますか?貴重だが管理できないデータセットに直面していますか? それともデータを使用してビジネスを前進させたいですか?
非構造化データにはコピー&ペースト以上のものが必要です
現代のビジネスにとって、正確でタイムリーで一貫性のあるデータの価値は議論の余地のないものであり、クラウド コンピューティングやデジタル アプリケーションと同じくらい重要です。それでも、データ品質が低いと、企業は年間平均 1,300 万ドルの損失を被ります。
データの問題を解決するには、統計的手法を使用してデータの形状を測定します。これにより、データ チームは変更を追跡し、外れ値を排除し、データ ドリフトを排除できます。統計的手法に基づく制御は、データの品質を判断し、重要な決定を下す前にデータセットをいつどのように使用するかを決定するために依然として価値があります。この統計的手法は効果的ですが、一般に、客観的かつ定量的な測定に適した構造化データセット専用です。
しかし、Microsoft Excel や Google Sheets に収まらないデータについてはどうすればよいでしょうか?含まれるもの:
モノのインターネット: センサー データ、ストック データ、ログ データ- マルチメディア: 写真、オーディオ、ビデオ
- リッチ メディア: 地理空間データ、衛星画像、気象データ、監視データ
- ドキュメント: ワープロ文書、スプレッドシート、プレゼンテーション、電子メール、通信データ
-
これらの種類の非構造化データが関与すると、不完全になりますまたは、不正確な情報がモデルに簡単に入力される可能性があります。エラーが見過ごされていると、データの問題が蓄積し、四半期報告から予測、予測まであらゆる業務に大混乱を引き起こす可能性があります。構造化データから非構造化データへの単純なコピーアンドペーストのアプローチでは十分ではなく、実際にビジネスを悪化させる可能性があります。
よく言われる「ガベージイン、ガベージアウト」は、非構造化データセットに非常によく当てはまります。おそらく、データに対する現在のアプローチを捨てる時期が来たのかもしれません。
機械学習を使用してデータ品質を確保する場合の注意事項
非構造化データのソリューションを検討する場合、機械学習を最初の選択肢にする必要があります。これは、機械学習が大量のデータセットを分析し、乱雑なデータの中からパターンを迅速に見つけることができるためです。適切なトレーニングを行うことで、機械学習モデルは、あらゆる形式の非構造化データ型を解釈、整理、分類する方法を学習できます。
たとえば、機械学習モデルは、データ分析、クレンジング、スケーリングのための推奨ルールを学習できるため、医療や保険などの業界での作業がより効率的かつ正確になります。同様に、機械学習プログラムは、ソーシャル メディアや電子メール記録などの非構造化データ ソース内のトピックやセンチメントごとにテキスト データを識別し、分類できます。
機械学習を通じてデータ品質の取り組みを向上させるときは、いくつかの重要な考慮事項に留意してください。
- 自動化: データの分離や修正などの手動データ操作は面倒で時間がかかります。また、今日の自動化機能を考慮すると、これらの操作はますます時代遅れになり、退屈な日常業務を処理し、データ チームがより重要で効率的な作業に集中できるようになります。データ パイプラインに自動化を組み込むには、自動化アクティビティに関する合理化された予測可能なプロセスを促進するために、標準化された運用手順とガバナンス モデルが整備されていることを確認するだけです。
- 人間の見落としを見逃さないでください: データの複雑さには、構造化データか非構造化データかにかかわらず、人間だけが提供できるレベルの専門知識とコンテキストが常に必要です。機械学習やその他のデジタル ソリューションはデータ チームに役立ちますが、テクノロジーだけに依存しないでください。代わりに、個々のデータ プロセスを定期的に監視しながら、チームがテクノロジーを活用できるようにします。この妥協により、既存の技術的手段では処理できないデータ エラーを修正できます。後で、これらの違いに基づいてモデルを再トレーニングできます。
- 根本原因の検出: 例外またはその他のデータ エラーが発生した場合、それは単一のイベントではないことがよくあります。データの収集と分析時により深い問題を無視すると、組織はデータ パイプライン全体に品質問題が蔓延する危険があります。最良の機械学習イニシアチブであっても、上流で生成されたエラーに対処することはできません。選択的に人間が介入することで、データ フロー全体が強化され、重大なエラーを防ぐことができます。
- 品質について仮定を置かない: データの品質を長期的に分析するには、データの形状について仮定を置くのではなく、非構造化データを定性的に測定する方法を見つけてください。 「what-if」シナリオを作成およびテストして、独自の測定方法、予想される出力、パラメーターを開発できます。データを使用して実験を実行すると、データの品質とパフォーマンスを計算する決定的な方法が提供され、データ品質自体を自動的に測定できます。このステップにより、品質管理が常に適切に行われるようになり、後付けではなくデータ取り込みパイプラインの重要な機能として機能します。
非構造化データは、新しい機会と洞察の宝庫です。しかし、現在非構造化データを活用している組織はわずか 18% であり、データの品質がより多くのビジネスを妨げている主な要因の 1 つとなっています。
非構造化データの人気が高まり、日々のビジネス上の意思決定や業務との関連性が高まるにつれ、機械学習ベースの品質管理は、データが関連性があり、正確で有用であるという待望の保証を提供します。データの品質にこだわる必要がない場合は、データを活用して会社を前進させることに集中できます。
データを制御したり、さらに良いことに機械学習に作業を任せたりしたときに生じるチャンスについて考えてみましょう。
元のタイトル: 非構造化データの問題を機械学習で解決する 、著者: エドガー・ホーニング
以上が機械学習を使用して非構造化データの問題を解決するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。