Maison >Java >javaDidacticiel >Introduction au processus d'analyse des données hors ligne
Remarque : ce lien se concentre principalement sur l'expérience du concept macro et du flux de traitement du système d'analyse de données, et sur la compréhension initiale des liens d'application de hadoop et d'autres frameworks. N'y prêtez pas trop attention. Détails du code
Un système d'analyse de données largement utilisé : "Webexploration de données de journaux"
"Site Web ou APP Système d'exploration de données de journaux Clickstream".
«Web Le « journal Clickstream » contient des informations très importantes pour le fonctionnement du site Web. Grâce à l'analyse du journal, nous pouvons connaître le nombre de visites sur le site Web, quelle page Web a le plus de visiteurs, quelle page Web est la plus précieuse, le taux de conversion publicitaire, les informations sur la source des visiteurs et informations sur le terminal visiteur.
Les données dans ce cas sont principalement fournies par Enregistrement du comportement de clic de l'utilisateur
Comment l'obtenir : Pré-intégrer un programme js sur la page du les éléments que vous souhaitez surveiller sur l'événement de liaison d'étiquette de la page, tant que l'utilisateur clique ou se déplace vers l'étiquette, cela peut déclencher la requête ajax en arrière-plan servlet, utilisez log4j enregistre les informations sur l'événement sur le serveur web (nginx, tomcat, etc.).
Forme :
58.215.204.118 - - [18/septembre/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens . me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
|
Ce cas est très similaire au système BI typique, et le processus global est le suivant :
Cependant, puisque la prémisse de cette affaire
est traite des quantités massives de données. Par conséquent, les technologies utilisées dans chaque maillon du processus sont complètement différentes de la BI traditionnelle. Les cours suivants les expliqueront une par une : <.>1) Collecte de données : programme de collecte développé sur mesure, ou utilisez le framework open source
FLUME2) Prétraitement des données :
mapreducele programme fonctionne surhadoopCluster3) Technologie d'entrepôt de données :
Hivehadoop 🎜>4) Export de données : sqoop
outil d'importation et d'exportation de données basé sur hadoop 5) Visualisation des données : Développement personnalisé de programmes web ou utilisation de produits tels que
kettle 6) de l'ensemble du processus Planification des processus : hadoop
oozie outils ou autres produits open source similaires dans l'écosystème 3.2.2
Schéma de l'architecture technique du projet3.2.3
Captures d'écran liées au projet (appréciez-le simplement de manière perceptuelle)
b)
Interroger des données dans
Hive
c)
Importer les résultats statistiques dans
mysql./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export- dir /user/hive/warehouse/uv /dt=2014-08-03 |
./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user/hive/warehouse/uv/dt=2014-08-03 |
3.3
Effet final du projet
effet Comme indiqué ci-dessous :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!