ビッグデータから何を学ぶか-よくある問題-php.cn

ホームページ

よくある問題

ビッグデータから何を学ぶか

王林

Apr 29, 2020 am 11:47 AM

ビッグデータ

ビッグデータから何を学ぶか

1. Java プログラミング

Java プログラミングはビッグデータ開発の基礎です。Hadoop や Spark など、ビッグデータの多くのテクノロジは Java で書かれています。 . 、mapreduce など。そのため、ビッグデータをしっかり学びたいなら、Java プログラミングは必須のスキルです。

(推奨学習: java 入門プログラム )

2. Linux の運用とメンテナンス

エンタープライズビッグデータ開発は、多くの場合、 Linuxオペレーティングシステム上で完結するため、ビッグデータ関連の業務に携わる場合は、Linuxシステムの操作方法や関連コマンドを習得する必要があります。

3. Hadoop

Hadoop は、大量のデータを分散処理できるソフトウェアフレームワークです。HDFS と MapReduce はその中核設計です。HDFS は大量のデータにサービスを提供します。 MapReduce はストレージに加えて、大量のデータの計算を提供し、ビッグデータ開発に不可欠なフレームワークスキルです。

4. Zookeeper

ZooKeeper は、分散型のオープンソースの分散アプリケーション調整サービスであり、Google の Chubby のオープンソース実装であり、Hadoop と An の統合です。 Hbase の重要なコンポーネント。分散アプリケーションに一貫したサービスを提供するソフトウェアであり、構成保守、ドメイン名サービス、分散同期、グループサービスなどの機能が提供されます。

5. Hive

hive は、Hadoop ベースのデータウェアハウスツールで、構造化データファイルをデータベーステーブルにマップし、単純な SQL を提供できます。 SQL ステートメントを MapReduce タスクに組み込んで実行します。これは、データウェアハウスの統計分析に非常に適しています。

6, Hbase

これは Hadoop エコシステムの NOSQL データベースです。そのデータはキーと値の形式で保存され、キーは一意であるため、データの重複排除に使用できます。MYSQL と比較して、はるかに大量のデータを保存できます。

7. Kafka

Kafka は、高スループットの分散型分散型です。消費者規模の Web サイトですべてのアクションフローデータを処理し、Hadoop の並列読み込みメカニズムを通じてオンラインとオフラインのメッセージ処理を統合し、クラスターを通じてリアルタイムメッセージを提供できるパブリッシュ/サブスクライブメッセージングシステムです。

8. Spark

Spark は、大規模なデータ処理用に設計された高速で汎用的なコンピューティングエンジンであり、Hadoop MapReduce の利点を備えていますが、MapReduce との違いは中間出力結果です。メモリに保存できるため、HDFS の読み書きが不要になるため、Spark は、データマイニングや機械学習など、反復を必要とする MapReduce アルゴリズムに適しています。

以上がビッグデータから何を学ぶかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。