java - 最近对大数据感兴趣，hadoop是不是过时了，应该深入学习spark？

Question

最近对大数据感兴趣，后面想往这方面发展，hadoop是不是过时了，应该深入学习spark？
因为也在上班，时间有限，担心花了时间学习hadoop后，公司却都不使用了，
因为了解到现在公司都在搞spark，因为是内存运算，效率会搞很多，
往过来人解惑，感谢！！

天蓬老师 · Answer

Hadoop は、Hadoop の計算モデル MapReduce だけを指すのではなく、Hadoop、HDFS、HBase などを含む Hive エコシステムを指します。 Spark は Hadoop 内の計算モデルを置き換えて強化するだけであり、その動作は Hadoop エコシステムの他の部分にも依存します。したがって、Hadoop の計算モデル MapReduce のみを参照している場合、それは確かにある程度古いと思います (ただし、適切なシナリオもあります)。

ご興味がございましたら、次の記事をご覧ください: Spark と Hadoop は敵ではなく友人です

迷茫 · Answer

現在、Hadoop は 2.0 時代に入りました。これには、HDFS、YARN、および MapReduce の 3 つのコンポーネントがあります。 HDFS は、入出力データの保存を担当する 分散ファイルシステム であり、YARN は、CPU とメモリのスケジュールを担当する 分散リソース管理システム です。これは、Web ページのランキング (PageRank) のために Google によって設計された 分散コンピューティングフレームワーク であり、ワード数などのさまざまなビッグデータを書き込むために使用できる非常に一般的なプログラミングモデルです。および Web ページのランキング (PageRank) ハンドラー。

Hadoop MapReduce、Spark、Storm などはすべて 分散コンピューティングフレームワーク であり、さまざまなアプリケーションシナリオに適しています。 Hadoop MapReduce はログ処理などのオフラインコンピューティングを実行し、Spark は機械学習を実行し、Storm はリアルタイムストリームコンピューティングを実行します。言い換えれば、これらは、異なる機能を備えた携帯電話の異なるアプリに相当します。したがって、厳密に言えば、誰が誰を置き換えるかという問題はありません。異なるアプリケーションシナリオには、異なるコンピューティングフレームワークが適しています。もちろん、Spark と Hadoop YARN を使用して同じタスクを完了することもできます。実行パフォーマンスは Spark の方が優れていますが、メモリの消費量は Spark の方が多くなります。したがって、一部のアプリケーションでは、実行時間を長くしても Hadoop MapReduce を使用しても問題なく、メモリリソースを節約できるため、Spark が Hadoop MapReduce を完全に置き換えることはできません。

また、Hadoop Mapreduce、Spark、Storm やその他多くの 分散コンピューティングフレームワーク は Hadoop エコシステム に属しており、同じ Hadoop クラスター内で実行して、 HDFS と YARN を共有できます。これらのコンピューティングフレームワークを携帯電話のアプリに例えると、Hadoop の HDFS と YARN は携帯電話のオペレーティングシステムに相当します。

そこで、私の提案は次のとおりです:

Hadoop はビッグデータを始めるには必須です。なぜなら、MapReduce は最も基本的な分散コンピューティングフレームワークであり、Spark などの他の分散コンピューティングフレームワークは MapReduce を理解することによってのみ他のシステムを理解できるからです。したがって、Hadoop は他の Hadoop エコシステム コンピューティングフレームワークの実行プラットフォームであり、避けることはできません。
企業のニーズに応じて Spark やその他のコンピューティングフレームワークを学習します。独学では単なる導入に過ぎず、実践的なアプリケーションを作成することで真に習得できます。

私のブログは、Hadoop テスト環境を迅速にセットアップするのに役立つかもしれません:

Docker に基づいた Hadoop クラスターのアップグレードバージョンの構築

阿神 · Answer

Hadoop は分散コンピューティングのインフラストラクチャです。せいぜい、Spark は Hadoop MapReduce を置き換えることしかできません。 HBASE Hive Sqoop kafka など、多くのビッグデータテクノロジツールは HDFS と MapReduce に基づいています。もちろん、開発を行う際には Spark を直接学習した方が良いですし、簡単に始めることができます

阿神 · Answer

Hadoop の学習と Spark の学習の間に矛盾はありません。現在、ほとんどの企業が Spark を使用している場合、データストレージは依然として Hadoop HDFS 上にあります。 Spark SQL と Hive はどちらも、相互運用可能な SQL のようなメソッドを使用できます。

java - 最近对大数据感兴趣，hadoop是不是过时了，应该深入学习spark？

全員に返信(4)返信します