Apache Hadoop は、汎用ハードウェア上に構築された大規模なクラスター上でアプリケーションを実行するためのフレームワークです。 Map/Reduce プログラミング パラダイムを実装しており、コンピューティング タスクが小さなチャンク (複数回) に分割され、異なるノードで実行されます。
さらに、分散ファイル システム (HDFS) も提供し、データはコンピューティング ノードに保存され、非常に高いデータセンター間の総帯域幅を提供します。
フレームワークの役割
Apache Hadoop ビッグ データ所有権の新しい選択肢
物理 DAS は依然として Apache Hadoop にとって最適なストレージですメディア。関連するハイレベルの専門家および企業が研究と実践を通じてストレージメディアを決定しているためです。ただし、HDFS に基づく Apache Hadoop データ ストレージには大きな問題があります。
まず、デフォルトのソリューションでは、すべての Apache Hadoop データをコピー、移動し、バックアップします。 HDFS は、Apache Hadoop の大きなデータ ブロックの I/O 最適化に基づいており、Apache Hadoop データの対話時間を節約します。後で使用する場合は、通常、Apache Hadoop データをコピーすることを意味します。ローカル スナップショットはありますが、その時点では完全に一貫性がなく、完全に回復可能ではありません。
これらの理由やその他の理由により、エンタープライズ ストレージ ベンダーは HDFS に変更を加えるのに十分賢明であり、一部のオタク系ビッグ データ エキスパートは Apache Hadoop コンピューティングに外部ストレージを活用させています。しかし、多くの企業にとって、Apache Hadoop は、メンテナンスに手間がかかるストレージや、コストがかかるストレージの新しいメンテナンス方法に適応する必要がなくなるという、良い妥協策を提供します。
多くの Apache Hadoop ベンダーは、Apache Hadoop クラスターへのリモート HDFS インターフェイスを提供しており、比較的大規模なビジネス規模を持つ Apache Hadoop 企業にとっては、これが最初の選択肢となります。彼らは isilon に存在するため、Apache Hadoop のセキュリティやその他の問題を含む、その他の Apache Hadoop データ処理ビッグ データの保護が行われます。もう 1 つの利点は、外部に保存されたデータが他の Apache Hadoop プロトコル ストアからアクセスできることが多く、ワークフローをサポートし、企業内で必要に応じてデータの転送やデータのコピーを制限できることです。また、Apache Hadoop は、この原則に基づいてビッグ データを処理し、複合ストレージ ソリューションと組み合わせたビッグ データ参照アーキテクチャを Apache Hadoop クラスターに直接取り込みます。
仮想化された Apache Hadoop ビッグ データ分析についても言及する価値があります。理論的には、すべてのコンピューティング ノードとストレージ ノードを仮想化できます。 VMware と RedHat/OpenStack には、Hadoop 用の仮想化ソリューションがあります。ただし、ほとんどすべての Apache Hadoop ホスト ノードはエンタープライズ ストレージの問題を解決できません。 Apache Hadoop のコンピューティング面をエミュレートし、企業が Apache Hadoop を使用して既存のデータ セット (SAN/NAS) を高速化して HDFS オーバーレイにダンプできるようにします。このように、Apache Hadoop ビッグ データ分析ではデータ センター内のデータに変更を加えることができないため、新しい Apache Hadoop ストレージ アーキテクチャと新しいデータ フロー、またはデータ管理の変更が使用されます。
ほとんどの Apache Hadoop ディストリビューションは、Apache Hadoop のオープン ソース HDFS (ビッグ データ用の現在のソフトウェア デファインド ストレージ) から始まりますが、Apache Hadoop の違いは、Apache Hadoop が異なるアプローチを採用していることです。これは基本的に、エンタープライズ Apache Hadoop が Apache Hadoop HDFS 上に独自の互換性のあるストレージ層を構築するために必要なストレージです。 MAPR バージョンは、スナップショット レプリケーションの I/O サポートを処理する完全な機能を備えており、Apache Hadoop は、NFS など、ネイティブにサポートされている他のプロトコルとも互換性があります。 Apache Hadoop も非常に効果的であり、履歴情報とリアルタイム情報のビッグ データに依存する意思決定支援ソリューションを実行する、主にエンタープライズ ビジネス インテリジェンス アプリケーションの提供に役立ちます。このアイデアと同様に、IBM は、HDFS
の代替として、Apache Hadoop ディストリビューション用のハイ パフォーマンス コンピューティング システム ストレージ API をリリースしました。データの問題の解決に役立つ、Apache Hadoop のもう 1 つの興味深いソリューションです。 1 つは、Apache Hadoop の大規模なデータ セットの一意の IP を効果的に保護できるデータ セキュリティのスタートアップである dataguise です。Apache Hadoop は、大規模なデータ クラスター内の機密情報を自動的に識別し、グローバルにカバーまたは暗号化できます。水平データ サイエンスは、この分野の新興テクノロジーであり、データ ファイルを Apache Hadoop に接続すると、データがどこにあっても (HDFS であっても)、Apache Hadoop が自動的に保存します。 Apache Hadoop ビッグ データによって提供される出力は、データのソースと場所を使用してビジネスに必要な情報を収集し、ビジネス アプリケーションを迅速に構築するのに役立ちます。
Apache Hadoop 管理やエンタープライズ データセンター ストレージに常に興味を持っている場合、また Apache Hadoop ビッグ データの最新情報を入手したい場合は、この機会に Apache Hadoop ビッグ データに関する知識を更新してください。これに倣うなら、Apache Hadoop の新技術の適用を拒否すべきではありません。
Apache 関連の技術記事の詳細については、Apache 使用法チュートリアル 列にアクセスして学習してください。
以上がApache Hadoopとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。