「ビッグデータ」とは、「大量データ」という意味を含み、内容的には大量データを超えた、「大量データ」の複合型データのことです。ビッグ データには、トランザクション データ セットやインタラクティブ データ セットを含むすべてのデータ セットが含まれます。これらのデータ セットは、妥当なコストと時間制限でこれらのデータ セットを取得、管理、処理する一般的に使用されるテクノロジの能力を超えるサイズまたは複雑さです。
大規模な構造化データだけの場合、解決策は比較的簡単です。ユーザーは、さらにストレージ デバイスを購入することで、ストレージ デバイスの効率を向上させることができます。解決するまでお待ちください。そういった問題。しかし、データベース内のデータが構造化データ、非構造化データ、半構造化データの 3 つのタイプに分類できることや、その他の複雑な状況がわかると、問題はそれほど単純ではないようです。
ビッグデータの到来
複雑な種類のデータが大量に流入すると、ユーザーの IT システムへの影響は別の方法で対処されることになります。多くの業界専門家や第三者調査機関は、いくつかの市場調査データを通じて、ビッグデータの時代が到来していることを発見しました。調査によると、この複雑なデータの 85% は、ソーシャル ネットワーク、モノのインターネット、電子商取引などに広く存在する非構造化データです。これらの非構造化データの生成には、多くの場合、ソーシャル ネットワーク、モバイル コンピューティング、センサーなどの新しいチャネルやテクノロジーの継続的な出現と適用が伴います。
今日のビッグデータの概念には、誇大広告や不確実性がたくさんあります。この目的のために、編集者は一部の業界専門家に関連問題についてさらに学ぶよう依頼し、ビッグデータとは何か、ビッグデータではないもの、ビッグデータやその他の問題にどのように対処するかについて話してもらい、次の形式でネチズンと会う予定です。一連の記事の一部。
数テラバイトのデータセットを「ビッグデータ」と呼ぶ人もいます。市場調査会社 IDC の統計によると、データ使用量は 44 倍に増加し、世界のデータ使用量は約 35.2ZB (1ZB
= 10 億 TB) に達すると予想されています。ただし、個々のデータ セットのファイル サイズも増加するため、これらのデータ セットを分析して理解するには、より大きな処理能力が必要になります。
EMC は、1,000 を超える顧客がアレイ内の 1 ペタバイトを超えるデータを使用しており、その数は 2020 年までに 100,000 に増加すると述べています。一部の顧客は、1 ~ 2 年以内にその数千倍、1 エクサバイト (1 エクサバイト = 10 億 GB) 以上のデータを使用し始めるでしょう。
ビッグ データと大規模データの違い
多様性とは、データに構造化データと非構造化データが含まれる必要があることを意味します。 ボリュームとは、分析のために集約されるデータの量を指し、非常に大きくなければなりません。 そして、速度とは、データ処理の速度が非常に速くなければならないことを意味します。 ビッグ データは必ずしも数百 TB を意味するわけではありません。実際の使用状況によっては、数百 GB のデータもビッグ データと呼ばれることもあります。これは主に、その 3 番目の次元、つまり速度または時間の次元に依存します。 ガーター氏は、世界の情報量は年間成長率59%以上で増加しており、データとビジネスを管理する上で量が大きな課題となっているとし、ITリーダーは情報量と多様性の観点から重点を置く必要があると述べた。 ボリューム: エンタープライズ システム内のデータ ボリュームの増加は、トランザクション ボリューム、他の従来のデータ タイプ、および新しいデータ タイプによって引き起こされます。過剰なボリュームはストレージの問題ですが、多すぎるデータもまた、 カテゴリ: IT リーダーは、大量のトランザクション情報を意思決定に変えることに常に苦労してきました – 現在、分析すべき情報の種類はさらに多くなっています –主にソーシャル メディアとモバイルからのもの (コンテキストカテゴリには、表形式データ (データベース)、階層データ、ファイル、電子メール、従量制データ、ビデオ、静止画像、オーディオ、株価データ、金融取引などが含まれます。データの流れ、構造化されたレコードの作成、アクセスと配信の可用性。速度とは、データが生成される速度と、需要を満たすためにデータを処理する必要がある速度を意味します。
Informatica China チーフ製品コンサルタントの Dan Bin 氏は、「ビッグ データ」には「大量データ」の意味が含まれており、内容的には大量データを超えていると考えています。つまり、「ビッグ データ」は「大量データ」であり、複雑です。データ。
しかし、ビン氏はさらに次のように指摘しました。ビッグデータには、トランザクションやインタラクションのデータセットを含むすべてのデータセットが含まれており、その規模や複雑さは、これらのデータセットを合理的なコストで取得、管理、処理する一般的に使用されるテクノロジーの能力を超えています。そして制限時間の能力。
ビッグ データは 3 つの主要な技術トレンドの収束で構成されています:
海量交易数据:在从 ERP应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。 海量交互数据:这一新生力量由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。 海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说,难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。
定義 2: ビッグ データには 3 つの要素 A、B、Cが含まれます
ビッグ データを理解する方法? NetApp
Greater China のゼネラル マネージャーである Chen Wen 氏は、ビッグ データとは、物事のやり方を変え、ブレークスルーを達成するために情報をより速く入手できることを意味すると考えています。ビッグ データは、データを保存、管理、回復する方法を再考する必要がある大量のデータ (多くの場合、構造化されていない) として定義されます。では、大きすぎるというのはどれくらいなのでしょうか?この問題についての考え方の 1 つは、この問題があまりに大きすぎて、現在使用しているツールでは対処できないため、データをどのように消化して貴重な洞察や情報に変換するかが鍵となるということです。
お客様から学んだワークロード要件に基づいて、ネットアップはビッグ データには、分析 (Analytic)、帯域幅 (Bandwidth)、およびコンテンツ (Content) という 3 つの要素 A、B、C が含まれると理解しています。
1. ビッグ アナリティクスは洞察の獲得に役立ちます –
は、新しいビジネス モデルとより良い顧客サービスをもたらし、より良い結果を達成できる巨大なデータ セットのリアルタイム分析の要件を指します。
2. 高帯域幅 (ビッグバンド幅) は高速化に役立ちます –
は、非常に高速な重要なデータを処理するための要件を指します。これにより、大規模なデータセットの高速かつ効率的な消化と処理が可能になります。
3. ビッグ コンテンツ (ビッグ コンテンツ)、情報は失われない -
は、非常に高いセキュリティを必要とし、簡単に復元できる拡張性の高いデータ ストレージを指します。古いデータだけでなく、情報コンテンツの管理可能なリポジトリをサポートしており、さまざまな大陸にまたがることができます。
ビッグデータは、IT
サポートのための新しいインフラストラクチャを導入する破壊的な経済的および技術的な力です。ビッグ データ ソリューションは、従来のコンピューティングとストレージの制限を排除します。増大する民間データと公的データの助けを借りて、画期的な新しいビジネス モデルが出現しており、ビッグ データの顧客に新たな大幅な収益成長ポイントと競争上の優位性をもたらすことが期待されています。
以上がビッグデータと大規模データの違いと関係は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。