最近对大数据感兴趣,后面想往这方面发展,hadoop是不是过时了,应该深入学习spark?
因为也在上班,时间有限,担心花了时间学习hadoop后,公司却都不使用了,
因为了解到现在公司都在搞spark,因为是内存运算,效率会搞很多,
往过来人解惑,感谢!!
天蓬老师2017-04-18 09:24:34
Hadoop
は、Hadoop
の計算モデル MapReduce
だけを指すのではなく、Hadoop
、HDFS
、HBase
などを含む Hive
エコシステムを指します。 Spark
は Hadoop
内の計算モデルを置き換えて強化するだけであり、その動作は Hadoop
エコシステムの他の部分にも依存します。したがって、Hadoop
の計算モデル MapReduce
のみを参照している場合、それは確かにある程度古いと思います (ただし、適切なシナリオもあります)。
ご興味がございましたら、次の記事をご覧ください: Spark と Hadoop は敵ではなく友人です
迷茫2017-04-18 09:24:34
現在、Hadoop は 2.0 時代に入りました。これには、HDFS、YARN、および MapReduce の 3 つのコンポーネントがあります。 HDFS は、入出力データの保存を担当する 分散ファイル システム であり、YARN は、CPU とメモリのスケジュールを担当する 分散リソース管理システム です。これは、Web ページのランキング (PageRank) のために Google によって設計された 分散コンピューティング フレームワーク であり、ワード数などのさまざまなビッグ データを書き込むために使用できる非常に一般的なプログラミング モデルです。および Web ページのランキング (PageRank) ハンドラー。
Hadoop MapReduce、Spark、Storm などはすべて 分散コンピューティング フレームワーク であり、さまざまなアプリケーション シナリオに適しています。 Hadoop MapReduce はログ処理などのオフライン コンピューティングを実行し、Spark は機械学習を実行し、Storm はリアルタイム ストリーム コンピューティングを実行します。言い換えれば、これらは、異なる機能を備えた携帯電話の異なるアプリに相当します。したがって、厳密に言えば、誰が誰を置き換えるかという問題はありません。異なるアプリケーション シナリオには、異なるコンピューティング フレームワークが適しています。もちろん、Spark と Hadoop YARN を使用して同じタスクを完了することもできます。実行パフォーマンスは Spark の方が優れていますが、メモリの消費量は Spark の方が多くなります。したがって、一部のアプリケーションでは、実行時間を長くしても Hadoop MapReduce を使用しても問題なく、メモリ リソースを節約できるため、Spark が Hadoop MapReduce を完全に置き換えることはできません。
また、Hadoop Mapreduce、Spark、Storm やその他多くの 分散コンピューティング フレームワーク は Hadoop エコシステム に属しており、同じ Hadoop クラスター内で実行して、 HDFS と YARN を共有できます。これらのコンピューティング フレームワークを携帯電話のアプリに例えると、Hadoop の HDFS と YARN は携帯電話のオペレーティング システムに相当します。
そこで、私の提案は次のとおりです:
Hadoop はビッグ データを始めるには必須です。なぜなら、MapReduce は最も基本的な分散コンピューティング フレームワークであり、Spark などの他の分散コンピューティング フレームワークは MapReduce を理解することによってのみ他のシステムを理解できるからです。したがって、Hadoop は他の Hadoop エコシステム コンピューティング フレームワークの実行プラットフォームであり、避けることはできません。
企業のニーズに応じて Spark やその他のコンピューティング フレームワークを学習します。独学では単なる導入に過ぎず、実践的なアプリケーションを作成することで真に習得できます。
私のブログは、Hadoop テスト環境を迅速にセットアップするのに役立つかもしれません:
Docker に基づいた Hadoop クラスターのアップグレード バージョンの構築
阿神2017-04-18 09:24:34
Hadoop は分散コンピューティングのインフラストラクチャです。せいぜい、Spark は Hadoop MapReduce を置き換えることしかできません。 HBASE Hive Sqoop kafka など、多くのビッグ データ テクノロジ ツールは HDFS と MapReduce に基づいています。もちろん、開発を行う際には Spark を直接学習した方が良いですし、簡単に始めることができます
阿神2017-04-18 09:24:34
Hadoop の学習と Spark の学習の間に矛盾はありません。現在、ほとんどの企業が Spark を使用している場合、データ ストレージは依然として Hadoop HDFS 上にあります。 Spark SQL と Hive はどちらも、相互運用可能な SQL のようなメソッドを使用できます。