HADOOP の 3 つのコアコンポーネント_HADOOP の 3 つのコアコンポーネントとは-よくある問題-php.cn

ホームページ

よくある問題

HADOOP の 3 つのコアコンポーネントは何ですか?

小老鼠

Jan 04, 2024 am 10:52 AM

hadoopコアコンポーネント

HADOOP の 3 つのコアコンポーネントは、HDFS、MapReduce、YARN です。詳細な紹介: 1. HDFS: 分散ファイルシステム。Hadoop クラスターに大量のデータを保存するために使用されます。高いフォールトトレランスを備え、複数のデータノードにまたがってデータを保存でき、高スループットのデータアクセスを提供します; 2. MapReduce: 大規模なデータセットの並列処理に使用されます。ビッグデータタスクを複数の小さなタスクに分解し、それらを複数のノードで並行して処理し、最終的に結果を要約します; 3. YARN: クラスターリソースの割り当てと管理を担当します。

HADOOP の 3 つのコアコンポーネントは何ですか?

Hadoop の 3 つのコアコンポーネントは、HDFS (分散ファイルストレージ)、MapReduce (分散コンピューティング)、YARN (リソーススケジューリング) です。

1. HDFS: HADOOP 分散ファイルシステム

HDFS (Hadoop 分散ファイルシステム) は、Hadoop プロジェクトの中核となるサブプロジェクトであり、主にストレージを担当します。 HDFS は、マスター/スレーブアーキテクチャを持つ分散ファイルシステムです。 HDFS は従来の階層ファイル編成構造をサポートしており、ユーザーまたはアプリケーションはディレクトリを作成し、これらのディレクトリにファイルを保存できます。ファイルシステムの名前空間の階層構造は、ほとんどの既存のファイルシステムの階層構造と似ており、ファイルパスを通じてファイルの作成、読み取り、更新、削除を行うことができます。ただし、分散ストレージの性質上、従来のファイルシステムとは明らかに異なります。

HDFS の利点:

高い耐障害性。 HDFS によってアップロードされたデータは自動的に複数のコピーを保存し、コピーにデータを追加することで耐障害性を高めることができます。レプリカが失われた場合、HDFS は他のマシン上にレプリカを複製するため、その実装について心配する必要はありません。
ビッグデータ処理に適しています。 HDFS は、ギガバイト、テラバイト、さらにはペタバイトに至るまで、サイズが数百万に及ぶ非常に大きなデータを処理できます。 (1PB=1024TB、1TB=1014GB)
ストリーミングデータアクセス。 HDFS は、ストリーミングデータアクセスモデルを使用して、非常に大きなファイルを保存し、一度書き込み、何度も読み取ります。つまり、ファイルは一度書き込まれた後は変更できず、追加のみ可能です。これにより、データの一貫性が維持されます。

2. MapReduce: 大規模データ処理

MapReduce は Hadoop のコアコンピューティングフレームワークであり、大規模データに対する並列操作のプログラミングに適しています。セット (1TB を超える) モデルには、Map (マッピング) と Reduce (削減) の 2 つの部分が含まれています。

MapReduce タスクが開始されると、Map 側は HDFS 上のデータを読み取り、そのデータを必要なキーと値のペアのタイプにマップして、Reduce 側に転送します。 Reduce 側は、Map 側からキーと値のペア型のデータを受け取り、異なるキーに従ってグループ化し、同じキーでデータの各グループを処理し、新しいキーと値のペアを取得して HDFS に出力します。これがコアです。 MapReduceのアイデア。

完全な MapReduce プロセスには、データの入力とシャーディング、Map ステージのデータ処理、Reduce ステージのデータ処理、データ出力、およびその他のステージが含まれます:

入力データの読み取り。 MapReduce プロセスのデータは、HDFS 分散ファイルシステムから読み取られます。ファイルが HDFS にアップロードされる場合、通常は 128MB ごとに複数のデータブロックに分割されるため、MapReduce プログラムを実行すると、各データブロックごとにマップが生成されますが、ファイルのフラグメントサイズをリセットすることでマップの数を調整することもできます。 . MapReduceを実行すると、設定された分割サイズに従ってファイルが再分割(Split)され、分割サイズのデータブロックがMapに対応します。
マップステージ。プログラムには、デフォルトのストレージまたはシャードの数によって決定される 1 つ以上のマップがあります。 Map ステージでは、データはキーと値のペアの形式で読み取られます。キーの値は通常、各行の最初の文字とファイルの最初の位置との間のオフセット、つまりその間の文字数です。、値はこの行のデータレコードです。要件に従ってキーと値のペアを処理し、それらを新しいキーと値のペアにマッピングし、新しいキーと値のペアを Reduce 側に渡します。
シャッフル/ソートステージ: このステージは、Map 出力から開始し、Map 出力を入力として Reduce に転送するプロセスを指します。このプロセスでは、まず、同じマップ内の同じキーを持つ出力データを統合して、送信されるデータ量を削減し、統合後にキーに従ってデータをソートします。
Reduce ステージ: Reduce タスクは複数存在することもでき、Map ステージで設定されたデータパーティションに従って、1 つのパーティションデータが 1 つの Reduce で処理されます。 Reduce タスクごとに、Reduce はさまざまな Map タスクからデータを受け取り、各 Map からのデータは順序どおりに受信されます。 Reduceタスクの各処理は、同じキーを持つすべてのデータをリデュースし、新しいキーと値のペアとしてHDFSに出力します。

3. Yarn: リソースマネージャー

Hadoop の MapReduce アーキテクチャは YARN (Yet Another Resource Negotiator、別のリソースコーディネーター) と呼ばれ、より効率的なリソース管理コアです。

YARN は主に、リソースマネージャー (RM)、ノードマネージャー (NM)、およびアプリケーションマスター (AM) の 3 つのモジュールで構成されます。

リソースマネージャーは、監視と割り当てを担当します。管理;
アプリケーションマスターは、各特定のアプリケーションのスケジューリングと調整を担当し、
ノードマネージャーは各ノードのメンテナンスを担当します。

以上がHADOOP の 3 つのコアコンポーネントは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。