java - 最近对大数据感兴趣，hadoop是不是过时了，应该深入学习spark？

Question

最近对大数据感兴趣，后面想往这方面发展，hadoop是不是过时了，应该深入学习spark？
因为也在上班，时间有限，担心花了时间学习hadoop后，公司却都不使用了，
因为了解到现在公司都在搞spark，因为是内存运算，效率会搞很多，
往过来人解惑，感谢！！

天蓬老师 · Answer

Hadoop bukan sahaja merujuk kepada model pengiraan Hadoop daripada MapReduce, tetapi merujuk kepada ekosistem Hadoop, termasuk HDFS, HBase, Hive, dsb. Spark hanya menggantikan dan memperkayakan model pengiraan dalam Hadoop, dan operasinya juga bergantung pada bahagian lain ekosistem Hadoop. Jadi saya rasa jika ia hanya merujuk kepada model pengiraan Hadoop dalam MapReduce, ia memang ketinggalan zaman sedikit sebanyak (tetapi ada juga senario yang sesuai).

Jika anda berminat, anda boleh membaca artikel ini: Spark And Hadoop Are Friends, Not Foes

迷茫 · Answer

Pada masa ini, Hadoop telah memasuki era 2.0. Ia mempunyai tiga komponen: HDFS, BENANG dan MapReduce. HDFS ialah sistem fail teragih , bertanggungjawab untuk menyimpan data input dan output; cluster; dan MapReduce Ia adalah rangka kerja pengkomputeran teragih , yang direka oleh Google untuk kedudukan halaman web (PageRank Ia adalah model pengaturcaraan yang sangat umum yang boleh digunakan untuk menulis pelbagai data besar seperti bilangan perkataan). dan kedudukan laman web (pengendali Halaman). Hadoop MapReduce, Spark, Storm, dll. semuanya

rangka kerja pengkomputeran diedarkan

, yang sesuai untuk senario aplikasi yang berbeza. Hadoop MapReduce melakukan pengkomputeran luar talian seperti pemprosesan log, Spark menjalankan pembelajaran mesin dan Storm melakukan pengkomputeran strim masa nyata. Secara ringkasnya, ia adalah setara dengan APP berbeza pada telefon mudah alih dengan fungsi berbeza. Oleh itu, secara tegasnya, tidak timbul persoalan siapa yang menggantikan siapa Rangka kerja pengkomputeran yang berbeza sesuai untuk senario aplikasi yang berbeza. Sudah tentu, Spark dan Hadoop YARN boleh digunakan untuk menyelesaikan tugas yang sama, dan Spark mempunyai prestasi pelaksanaan yang lebih baik, tetapi Spark menggunakan lebih banyak memori. Oleh itu, Spark tidak boleh menggantikan Hadoop MapReduce sepenuhnya, kerana sesetengah aplikasi tidak mempunyai masalah menggunakan Hadoop MapReduce untuk masa pelaksanaan yang lebih lama dan boleh menjimatkan sumber memori. Selain itu, Hadoop Mapreduce, Spark, Storm dan banyak lagi

rangka kerja pengkomputeran yang diedarkan

tergolong dalam ekosistem Hadoop, dan mereka boleh berjalan dalam kelompok Hadoop yang sama, berkongsi HDFS dan BENANG . Jika rangka kerja pengkomputeran ini dibandingkan dengan aplikasi pada telefon mudah alih, maka HDFS dan YARN Hadoop adalah bersamaan dengan sistem pengendalian telefon mudah alih. Jadi, cadangan saya ialah:

rangka kerja pengkomputeran teragih
yang paling asas, dan rangka kerja pengkomputeran teragih lain seperti Spark dibina di atasnya Hanya dengan memahami MapReduce anda boleh memahami sistem lain. Kemudian, Hadoop ialah platform berjalan untuk rangka kerja pengkomputeran Ekosistem Hadoop lain dan tidak boleh dielakkan.

阿神 · Answer

Hadoop ialah infrastruktur untuk pengkomputeran teragih. Paling baik, Spark hanya boleh menggantikan Hadoop MapReduce. Banyak alatan teknologi data besar adalah berdasarkan HDFS dan MapReduce, termasuk HBASE Hive Sqoop kafka, dsb. Sudah tentu, adalah lebih baik untuk belajar Spark secara langsung semasa melakukan pembangunan, dan ia adalah mudah untuk bermula

阿神 · Answer

Tiada konflik antara pembelajaran Hadoop dan pembelajaran Spark Pada masa ini, apabila kebanyakan syarikat menggunakan Spark, storan data mereka masih pada Hadoop HDFS. Kedua-dua Spark SQL dan Hive boleh menggunakan kaedah seperti SQL dan serupa.

java - 最近对大数据感兴趣，hadoop是不是过时了，应该深入学习spark？

membalas semua(4)saya akan balas