ホームページ >よくある問題 >ビッグデータ分析にはいくつのツールが必要ですか?

ビッグデータ分析にはいくつのツールが必要ですか?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼オリジナル
2019-07-25 17:25:414344ブラウズ

ビッグデータ分析にはいくつのツールが必要ですか?

1. Hadoop 関連ツール

1.Hadoop

Apache の Hadoop プロジェクトはほぼ装備されていますビッグデータを使って。成長を続け、拡張性の高い分散コンピューティングのための多くのオープンソース ツールを備えた完全なエコシステムになりました。

サポートされているオペレーティング システム: Windows、Linux、OSX。

2.Ambari

Hadoop エコシステムの一部として、この Apache プロジェクトは、Hadoop クラスターを構成、管理、監視するための直感的な Web ベースのインターフェイスを提供します。 Ambari の機能を独自のアプリケーションに統合したい開発者向けに、Ambari は REST (Representational State Transfer Protocol) を利用する API を提供します。

サポートされているオペレーティング システム: Windows、Linux、OSX。

3.Avro

この Apache プロジェクトは、豊富なデータ構造とコンパクトな形式を備えたデータシリアル化システムを提供します。スキーマは JSON で定義され、動的言語と簡単に統合できます。

4.Cascading

Cascading は、Hadoop に基づくアプリケーション開発プラットフォームです。ビジネスサポートとトレーニングサービスを提供します。

5.Chukwa

Chukwa は Hadoop に基づいており、監視のために大規模な分散システムからデータを収集できます。データを分析および表示するためのツールも含まれています。

サポートされているオペレーティング システム: Linux および OSX。

6.Flume

Flume は、他のアプリケーションからログ データを収集し、このデータを Hadoop に送信できます。公式 Web サイトでは、「強力で耐障害性があり、調整および最適化できる信頼性メカニズム、および多くのフェイルオーバーおよび回復メカニズムを備えています。」

サポートされているオペレーティング システム: Linux および OSX。

7.HBase

HBase は、数十億の行と数百万の列を持つ非常に大きなテーブル用に設計されており、ビッグ データに対してランダム化を実行できる分散データベースです。リアルタイムの読み取り/書き込みアクセス。これは Google の Bigtable に似ていますが、Hadoop および Hadoop 分散ファイル システム (HDFS) 上に構築されています。

8.Hadoop 分散ファイル システム (HDFS)

HDFS は Hadoop 用のファイル システムですが、独立した分散ファイル システムとしても使用できます。 Java をベースにしており、耐障害性が高く、拡張性と構成性が高くなります。

サポートされているオペレーティング システム: Windows、Linux、OSX。

9.Hive

ApacheHive は、Hadoop エコシステムのデータ ウェアハウスです。これにより、ユーザーは SQL に似た言語である HiveQL を使用してビッグ データのクエリと管理を行うことができます。

10.Hivemall

Hivemall は、Hive 用の複数の機械学習アルゴリズムを組み合わせています。これには、データ分類、再帰、推奨、k 最近傍、異常検出、および特徴ハッシュのための拡張性の高いアルゴリズムが多数含まれています。

11.Mahout

公式 Web サイトによると、Mahout プロジェクトの目的は「スケーラブルで高性能な機械学習アプリケーションを迅速に構築するための環境を作成する」ことです。 HadoopMapReduce インターネット上には、Scala および Spark 環境用の新しいアルゴリズムを含む、データ マイニング用のアルゴリズムが多数あります。

12.MapReduce

Hadoop の不可欠な部分として、MapReduce プログラミング モデルは、大規模な分散データ セットを処理するためのメソッドを提供します。元々は Google によって開発されましたが、現在では、CouchDB、MongoDB、Riak など、この記事で取り上げている他のいくつかのビッグ データ ツールで使用されています。

13.Oozie

このワークフロー スケジュール ツールは、Hadoop タスクを管理するために特別に設計されています。時間やデータの可用性に基づいてタスクをトリガーでき、MapReduce、Pig、Hive、Sqoop、その他多くの関連ツールと統合できます。

サポートされているオペレーティング システム: Linux および OSX。

14.Pig

ApachePig は、分散ビッグデータ分析のためのプラットフォームです。 PigLatin と呼ばれるプログラミング言語に依存しており、簡素化された並列プログラミング、最適化、スケーラビリティという利点があります。

15.Sqoop

企業では、リレーショナル データベースと Hadoop の間でデータを転送する必要がよくあります。Sqoop は、このタスクを完了できるツールです。データを Hive または HBase にインポートし、Hadoop からリレーショナル データベース管理システム (RDBMS) にエクスポートできます。

16.Spark

Spark は、MapReduce の代替となるデータ処理エンジンです。メモリ内で使用する場合は MapReduce より最大 100 倍、ディスク上で使用する場合は MapReduce より最大 10 倍高速であると主張しています。 Hadoop および Apache Mesos と一緒に使用することも、単独で使用することもできます。

サポートされているオペレーティング システム: Windows、Linux、OSX。

17.Tez

Tez は、「タスクがデータを処理するための複雑な有向非巡回グラフを構築できるアプリケーション フレームワーク」である Apache Hadoop YARN 上に構築されています。これにより、Hive と Pig は次のことを行うことができます。完了するまでに複数の手順が必要となる複雑なタスクを簡素化します。

サポートされているオペレーティング システム: Windows、Linux、OSX。

18.Zookeeper

このビッグ データ管理ツールは、「構成情報、名前の管理、分散同期の提供、およびグループ サービスの提供に使用できる集中型サービス」であると主張しています。 Hadoop クラスター内のノードが相互に調整されます。

サポートされているオペレーティング システム: Linux、Windows (開発環境のみに適しています)、OSX (開発環境にのみ適しています)。

関連する推奨事項:「FAQ

2. ビッグ データ分析プラットフォームとツール

19.Disco

Disco はもともと Nokia によって開発され、Hadoop のような分散コンピューティング フレームワークです。これも MapReduce に基づいています。これには、数十億のキーと値をサポートする分散ファイル システムとデータベースが含まれています。

サポートされているオペレーティング システム: Linux および OSX。

20.HPCC

Hadoop の代替となるビッグ データ プラットフォームである HPCC は、非常に高速で拡張性が高いことが約束されています。 HPCC Systems は、無料のコミュニティ バージョンに加えて、有料のエンタープライズ バージョン、有料モジュール、トレーニング、コンサルティング、その他のサービスも提供しています。

サポートされているオペレーティング システム: Linux。

21.Lumify

Altamira Technologies (国家安全保障技術で知られる) が所有する Lumify は、オープンソースのビッグデータ統合、分析、視覚化プラットフォームです。 Try.Lumify.io でデモ バージョンを試して、実際の動作を確認することができます。

サポートされているオペレーティング システム: Linux。

22.Pandas

Pandas プロジェクトには、Python プログラミング言語に基づくデータ構造とデータ分析ツールが含まれています。これにより、企業組織はビッグ データ分析プロジェクトで R の代替として Python を使用できるようになります。

サポートされているオペレーティング システム: Windows、Linux、OSX。

23.Storm

Storm は現在、ビッグ データのリアルタイム処理を提供する Apache プロジェクトです (バッチ タスク処理のみを提供する Hadoop とは異なります)。そのユーザーには、Twitter、The Weather Channel、WebMD、Alibaba、Yelp、Yahoo Japan、Spotify、Group、Flipboard などが含まれます。

サポートされているオペレーティング システム: Linux。

3. データベース/データ ウェアハウス

24.Blazegraph

Blazegraph は、以前は「Bigdata」と呼ばれていました。データベース。オープンソースと商用ライセンスの両方で利用できます。

25.Cassandra

この NoSQL データベースはもともと Facebook によって開発され、現在では Apple、欧州原子核研究機構 (CERN)、Comcast、Electronic Harbor を含む 1,500 以上の企業組織で使用されています。 、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit など。非常に大規模なクラスターをサポートできます。たとえば、Apple が導入した Cassandra システムには 75,000 を超えるノードが含まれ、10PB を超えるデータを保持します。

26.CouchDB

CouchDB は「インターネットを完全に包含するデータベース」として知られており、データを JSON ドキュメントに保存し、Web ブラウザーを通じてクエリを実行したり、JavaScript を使用して処理したりできます。使いやすく、分散ネットワーク上での可用性と拡張性が高くなります。

サポートされているオペレーティング システム: Windows、Linux、OSX、Android。

27.FlockDB

Twitter によって開発された FlockDB は、ソーシャル ネットワーク データの保存に優れた、非常に高速でスケーラブルなグラフ データベースです。まだダウンロード可能ですが、プロジェクトのオープンソース バージョンはしばらく更新されていません。

28.Hibari

この Erlang ベースのプロジェクトは、「強力な一貫性を保証する、分散型の順序付けされたキーと値のストレージ システム」であると主張しています。元々は Gemini Mobile Technologies によって開発され、現在はヨーロッパとアジアのいくつかの通信事業者によって使用されています。

29.Hypertable

Hypertable は、Hadoop と互換性があり、超高性能を約束するビッグ データ データベースであり、そのユーザーには、Electronic Harbor、Baidu、Gaopeng、Yelp、その他多くのインターネット企業が含まれます。ビジネスサポートサービスを提供します。

サポートされているオペレーティング システム: Linux および OSX。

30.Impala

Cloudera は、SQL ベースの Impala データベースが「Apache Hadoop の主要なオープンソース分析データベース」であると主張しています。これはスタンドアロン製品としてダウンロードでき、Cloudera の商用ビッグデータ製品の一部です。

サポートされているオペレーティング システム: Linux および OSX。

31.InfoBright コミュニティ エディション

InfoBright はデータ分析用に設計されており、高い圧縮率を備えた列指向のデータベースです。 InfoBright.com は、同じコードに基づいた有料製品を提供し、サポート サービスを提供します。

サポートされているオペレーティング システム: Windows および Linux。

32.MongoDB

1,000 万以上のダウンロードを誇る mongoDB は、非常に人気のある NoSQL データベースです。 Enterprise エディション、サポート、トレーニング、および関連製品とサービスは、MongoDB.com で利用できます。

サポートされているオペレーティング システム: Windows、Linux、OSX、Solaris。

以上がビッグデータ分析にはいくつのツールが必要ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。