ホームページ >Java >&#&チュートリアル >オフラインデータ分析プロセスの概要
3.1 要件分析
3.1.1 ケース名
「Webサイトまたは
APPClickstream Log Data Mining System」。
3.1.3 データソース
取得方法: jsの
プログラムページ上で監視したいタグ バインディング イベントは、ユーザーがタグをクリックするかタグに移動する限りトリガーでき、ajaxlog4jは、web
サーバー(nginx、tomcatなど)上に成長ログファイルが形成されるように、イベント情報を記録するために使用されます。 は次のようになります: 58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver =1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
このケースは典型的なBIシステムと似ています非常に似ている、全体的に ただし、このケースは大量のデータを扱うことを前提としているため、プロセスの各リンクで使用されるテクノロジーは従来とはまったく異なりますBI以降のコースも同様です。 最初の説明: 1) データ収集: 収集プログラムのカスタマイズ開発、またはオープンソースフレームワークの使用 FLUME 2) データ前処理: mapreduce のカスタマイズ開発。 プログラムはhadoopcluster 3で実行されます3) データウェアハウステクノロジー: Hive4) ベースの 4) データエクスポート: sqoop データのインポートおよびエクスポートツールベースonhadoop 5)data視覚化:カスタマイズされた開発webプログラムまたはその他の製品およびその他の製品の使用hadoopエコシステム内のソースプロダクト 3. 2 ... b) ./sqoop export --connect jdbc: mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user /hive/warehouse/uv/dt=2014-08-03 プロジェクトの最終効果 データ処理プロセスが完了した後、さまざまな統計指標のレポートは定期的に出力されますが、実際の運用では、これらのレポート データを視覚化の形式で表示する必要があります。この場合、 プログラムを使用してデータの視覚化を実現します 効果は次のとおりです。 : 3.2 データ処理プロセス
3.2.1 フローチャート分析
c) 統計結果を mysql にインポートする
以上がオフラインデータ分析プロセスの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。