ホームページ  >  記事  >  Java  >  オフラインデータ分析プロセスの概要

オフラインデータ分析プロセスの概要

巴扎黑
巴扎黑オリジナル
2017-06-26 11:33:451731ブラウズ

3 申請プロセスでは、コードの詳細にあまり注意を払わないでください広く使用されているデータ分析システム: 「Webログデータマイニング」

3.1 要件分析

3.1.1 ケース名

「Webサイトまたは

APP

Clickstream Log Data Mining System」

3.1.2 ケース要件の説明

Web

Clickstream Log」には、Webサイトの運用に重要な情報が含まれており、ログ分析を通じて、Webサイトへのアクセス数やどのWebページであるかを知ることができます。訪問者数、どの Web ページが最も価値があるか、広告コンバージョン率、訪問者ソース情報、訪問者端末情報など。

3.1.3 データソース

この場合のデータは主に ユーザーのクリック動作によって記録されます

取得方法: jsの

プログラムページ上で監視したいタグ バインディング イベントは、ユーザーがタグをクリックするかタグに移動する限りトリガーでき、

ajax

リクエストがバックグラウンドのサーブレット

プログラムに送信されます。

log4jは、web

サーバー(

nginxtomcatなど)上に成長ログファイルが形成されるように、イベント情報を記録するために使用されます。 は次のようになります: 58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver =1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

3.2 データ処理プロセス

3.2.1 フローチャート分析

このケースは典型的なBIシステムと似ています非常に似ている、全体的に

ただし、このケースは大量のデータを扱うことを前提としているため、プロセスの各リンクで使用されるテクノロジーは従来とはまったく異なりますBI以降のコースも同様です。 最初の説明:

1) データ収集: 収集プログラムのカスタマイズ開発、またはオープンソースフレームワークの使用 FLUME

2) データ前処理: mapreduce のカスタマイズ開発。 プログラムはhadoopcluster

3で実行されます3) データウェアハウステクノロジー: Hive4) ベースの

hadoop

4) データエクスポート: sqoop データのインポートおよびエクスポートツールベースonhadoop

5)data視覚化:カスタマイズされた開発webプログラムまたはその他の製品およびその他の製品の使用hadoopエコシステム内のソースプロダクト

3. 2 ... b)

Hiveのデータをクエリ

c)

統計結果を mysql にインポートする

./sqoop export --connect jdbc: mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user /hive/warehouse/uv/dt=2014-08-03

3.3

プロジェクトの最終効果

データ処理プロセスが完了した後、さまざまな統計指標のレポートは定期的に出力されますが、実際の運用では、これらのレポート データを視覚化の形式で表示する必要があります。この場合、

web

プログラムを使用してデータの視覚化を実現します

効果は次のとおりです。 :

以上がオフラインデータ分析プロセスの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。