Maison  >  Article  >  Tutoriel système  >  Exploration approfondie du système de connaissances dans le domaine de la surveillance

Exploration approfondie du système de connaissances dans le domaine de la surveillance

PHPz
PHPzavant
2024-01-01 19:17:33752parcourir
Présentation La surveillance est la partie la plus importante de l'ensemble de l'exploitation et de la maintenance et même de l'ensemble du cycle de vie du produit. Elle fournit des avertissements en temps opportun pour détecter les défauts à l'avance et fournit ensuite des données détaillées pour tracer et localiser les problèmes. Il existe de nombreux bons produits open source parmi lesquels choisir dans l’industrie. Choisir un système de surveillance open source est une solution permettant de gagner du temps, de la main-d'œuvre et la plus efficace. Bien sûr, les amis qui ne connaissent pas grand-chose en surveillance peuvent avoir une compréhension plus approfondie de l’ensemble du système de surveillance après avoir lu l’article suivant.
1. Objectif de surveillance

Commençons par comprendre ce qu'est la surveillance, l'importance de la surveillance et les objectifs de la surveillance. Bien sûr, tout le monde appartient à un secteur, une entreprise, une activité, un poste différent et a une compréhension différente de la surveillance, mais nous devons prêter attention à la surveillance. nécessité de surveillance. Pensez du point de vue commercial de l'entreprise, plutôt que d'utiliser une certaine technologie de surveillance.

Surveillance ininterrompue en temps réel du système : Il s'agit en fait d'une surveillance ininterrompue en temps réel du système (c'est la surveillance) ;

Retour en temps réel sur l'état actuel du système : lorsque nous surveillons un certain matériel ou un certain système, nous devons pouvoir voir l'état du système actuel en temps réel, qu'il soit normal, anormal ou défectueux. ;

Assurer la fiabilité et la sécurité des services : Le but de notre surveillance est d'assurer le fonctionnement normal des systèmes, des services et des entreprises

 ;

Assurer le fonctionnement continu et stable de l'entreprise : Si notre surveillance est parfaite, même si un défaut survient, nous pouvons recevoir l'alarme de défaut dans les plus brefs délais et la traiter dans les plus brefs délais, assurant ainsi le fonctionnement continu et stable de l'entreprise. affaires;

Exploration approfondie du système de connaissances dans le domaine de la surveillance

2. Méthode de surveillance Maintenant que nous comprenons l'importance de la surveillance et son objectif, nous devons comprendre les méthodes de surveillance.

Comprendre les objets à surveiller : Comprenez-vous les objets que nous voulons surveiller ? Par exemple, comment fonctionne le processeur ?

Mesures de référence des performances : quelles propriétés de cette chose voulons-nous surveiller ? Par exemple, l'utilisation du processeur, la charge, le mode utilisateur, le mode noyau et le changement de contexte.

Définition du seuil d'alarme : Qu'est-ce qui est considéré comme un défaut et nécessite une alarme ? Par exemple, quelle est la charge du processeur considérée comme élevée ? Quelle est la charge du mode utilisateur et du mode noyau ?

Processus de traitement des pannes : après avoir reçu une alarme de panne, comment la traitons-nous ? Existe-t-il un processus plus efficace ?

3. Noyau de surveillance Nous avons découvert les méthodes de surveillance, les objets de surveillance, les indicateurs de performance, les définitions de seuils d'alarme et les étapes du processus de gestion des pannes. Bien sûr, nous devons en savoir plus sur ce qui est au cœur de la surveillance ?

Découvrez les problèmes : lorsqu'une alarme de panne du système se produit, nous recevrons les informations d'alarme de panne ;

Problème de positionnement : les e-mails d'échec parlent généralement d'une certaine panne d'hôte et du contenu spécifique de l'échec. Par exemple, si un serveur ne peut pas être connecté : nous devons déterminer s'il s'agit d'un problème de réseau ou s'il s'agit d'un problème de réseau. la charge est trop élevée et entraîne une connexion impossible, ou un certain développement a déclenché des politiques d'interdiction de pare-feu, etc., nous devons analyser la cause spécifique de l'échec ;

Résoudre le problème : bien sûr, après avoir compris la cause du défaut, nous devons résoudre le défaut en fonction de la priorité de résolution du défaut ;

Résumé du problème : après avoir résolu le défaut majeur, nous devons résumer la cause et la prévention du défaut pour éviter qu'il ne se reproduise à l'avenir

 ;

4. Outils de surveillance

Ensuite, nous devons choisir un outil de surveillance adapté à l'activité de l'entreprise. J'ai ici brièvement classé les outils de surveillance.

Anciens outils de surveillance :

MRTG (Multi Route Trffic Grapher) est un ensemble de logiciels qui peuvent être utilisés pour dessiner des graphiques de trafic réseau. Il a été développé par Tobias Oetiker et Dave Rand à Olten, en Suisse, et est sous licence GPL. La meilleure version de MRTG a été lancée en 1995. Elle est écrite en langage Perl et peut être utilisée sur toutes les plateformes. Le protocole SNMP est utilisé pour la collecte de données via la page Web pour dessiner des images au format GIF ou PNG. Ganglia est un système de surveillance distribué multiplateforme, évolutif et haute performance tel que des clusters et des grilles. Il est basé sur une conception en couches, utilise un large éventail de technologies et utilise RRDtool pour stocker les données. Il dispose d'une interface visuelle et convient à la surveillance automatisée des systèmes de cluster. Sa structure de données et son algorithme soigneusement conçus rendent très faible la surcharge de connexion de l’extrémité de surveillance à l’extrémité surveillée. Des milliers de clusters utilisent actuellement ce système de surveillance, qui peut facilement gérer un environnement de cluster de 2 000 nœuds.

Cacti (qui signifie cactus en anglais) est un ensemble d'outils d'analyse graphique de surveillance du trafic réseau développés sur la base de PHP, MySQL, SNMP et RRDtool. Il obtient des données via snmpget et utilise RRDtool pour le dessin, mais les utilisateurs n'ont pas besoin de comprendre les paramètres complexes. de RRDtool. Il fournit des fonctions très puissantes de gestion des données et des utilisateurs. Chaque utilisateur peut être désigné pour afficher l'arborescence, le périphérique hôte et n'importe quelle image. Il peut également être combiné avec LDAP pour l'authentification des utilisateurs et peut également personnaliser les modèles. En termes d’affichage et de surveillance des données historiques, sa fonction est plutôt bonne.

Cacti rend la surveillance de différents appareils réutilisable en ajoutant des modèles, et a la fonction de dessin personnalisable et une puissance de calcul puissante (fonction de superposition de données)

Nagios est un système de surveillance au niveau de l'entreprise qui peut surveiller l'état de fonctionnement et les informations réseau des services, surveiller l'état des hôtes et services locaux ou distants spécifiés et fournir des fonctions de notification d'alarme anormale.

Nagios fonctionne sur les plateformes Linux et UNIX. Dans le même temps, une interface Web est fournie pour permettre aux administrateurs système d'afficher l'état du réseau, divers problèmes système et les journaux liés au système.

La fonction de Nagios se concentre sur la surveillance de la disponibilité des services et peut déclencher des alarmes en fonction de l'état des indicateurs de surveillance.

Actuellement, Nagios occupe également une certaine part de marché. Cependant, Nagios n'a pas suivi le rythme et ne peut plus répondre aux besoins changeants de surveillance. L'évolutivité de l'architecture et la facilité d'utilisation doivent être améliorées. sont intégrés dans la version commerciale de Nagios XI.

Smokeping est principalement utilisé pour surveiller les performances du réseau, y compris le ping régulier, les performances du serveur www, les performances des requêtes DNS, les performances SSH, etc. La couche inférieure est également prise en charge par RRDtool. Elle se caractérise par de très beaux dessins. La perte et le retard des paquets réseau sont marqués par des couleurs et des ombres. Son auteur a également développé des outils tels que MRTG et RRDtll.

Le site Web de Smokeping est : http://tobi.oetiker.cn/hp

Le système de surveillance open source OpenTSDB utilise Hbase pour stocker toutes les données de séries chronologiques (sans échantillonnage) afin de créer une base de données de séries chronologiques distribuée et évolutive. Il prend en charge la collecte de données de deuxième niveau, prend en charge le stockage permanent, peut effectuer une planification des capacités et peut être facilement intégré aux systèmes d'alarme existants.

OpenTSDB peut obtenir les indicateurs de collecte correspondants à partir de clusters à grande échelle (y compris les périphériques réseau, les systèmes d'exploitation et les applications du cluster), et les stocker, les indexer et les servir, rendant ces données plus faciles à comprendre, telles que la webisation, les graphiques, etc. .

Outil de surveillance Ace :

Zabbix est un système de surveillance distribué qui prend en charge plusieurs méthodes de collecte et clients de collecte. Il dispose d'un agent dédié et prend également en charge plusieurs protocoles tels que SNMP, IPMI, JMX, Telnet et SSH. Il stocke les données collectées dans la base de données. , puis l'analyser et l'organiser, et déclencher une alarme lorsque les conditions sont remplies. Son évolutivité flexible et ses fonctions riches sont inégalées par d'autres systèmes de surveillance. Relativement parlant, sa fonctionnalité globale est excellente. De la comparaison des différents systèmes de surveillance ci-dessus, Zabbix présente des avantages, avec ses fonctions riches, son évolutivité, ses capacités de développement secondaire et sa simplicité d'utilisation. Les lecteurs peuvent créer leur propre système de surveillance avec juste un petit système de surveillance.

Le système de surveillance de Xiaomi : open-falcon. L'objectif d'open-falcon est de créer le produit de surveillance Internet au niveau de l'entreprise le plus ouvert et le plus facile à utiliser.

Outils de surveillance tripartite :

Il existe actuellement de nombreux bons systèmes de surveillance tiers sur le marché, tels que : Monitor Bao, Monitor Easy, Tingyun et de nombreux fournisseurs de cloud ont leur propre surveillance, mais nous n'allons pas la présenter ici si vous souhaitez en savoir plus. Surveillance par des tiers, vous pouvez accéder au site officiel par vous-même. (Évitez de parler de placement publicitaire)

5. Processus de surveillance

Tant de choses ont été présentées ci-dessus, alors quel outil de surveillance est le plus approprié ? Je recommande plusieurs outils de surveillance open source : Zabbix, Open-Falcon et LEPUS (dédiés à la surveillance des bases de données).

Mais cet article s'appuie toujours sur Zabbix pour construire l'ensemble de l'écosystème du système de surveillance.

Parlons ensuite de l'ensemble du processus de Zabbix :

Collecte de données : Zabbix collecte les données du système via SNMP, Agent, ICMP, SSH, IPMI, etc. ;

Stockage des données : Zabbix est stocké sur MySQL et peut également être stocké sur d'autres services de base de données

;

Analyse des données : lorsque nous devons examiner et analyser le défaut par la suite, Zabbix peut nous fournir des informations pertinentes telles que des graphiques et l'heure, afin que nous puissions déterminer l'emplacement du défaut

 ;

Affichage des données : affichage de l'interface web (APP mobile, java_php peut également développer une interface web

) ;

Surveillance et alarme : alarme téléphonique, alarme e-mail, alarme WeChat, alarme SMS, mécanisme de mise à niveau de l'alarme, etc. (quelle que soit l'alarme disponible) ;

Traitement des alarmes : Lors de la réception d'une alarme, nous devons la traiter en fonction du niveau du défaut, tel que : important et urgent, important et non urgent, etc. Selon le niveau du défaut, coopérer avec le personnel concerné pour le traiter rapidement

 ;

6. Indicateurs de suivi

Nous avons découvert les méthodes de surveillance, les objectifs, les processus et les outils disponibles pour la surveillance. Certaines personnes peuvent se demander : que devons-nous exactement surveiller ? J'ai donc réglé le problème ici :

6.1 Surveillance du matériel Au début, nous utilisions des inspections dans les salles informatiques pour vérifier le scintillement de la lumière des équipements matériels afin de déterminer s'ils étaient défectueux. Cela représentait un gaspillage considérable de main d'œuvre, et c'était un travail répétitif et non technique.

Bien sûr, nous pouvons désormais surveiller les détails du matériel via IPMI et définir des seuils d'alarme pour le processeur, la mémoire, le disque, la température, le ventilateur, la tension, etc. (Nous pouvons écrire nous-mêmes une plage d'alarme raisonnable pour le contenu de l'alarme de surveillance)

Matériel de référence sur le service du matériel de surveillance IPMI

6.2 Surveillance du système

Les petites et moyennes entreprises sont essentiellement toutes des serveurs Linux, nous devons donc surveiller l'utilisation des ressources système. La surveillance du système est la base du système de surveillance.

Principaux objets à surveiller :

Le processeur a plusieurs concepts importants : le changement de contexte, la file d'attente d'exécution et l'utilisation.

Ce sont également plusieurs indicateurs clés de notre surveillance CPU.

Normalement, la file d'attente d'exécution de chaque processeur ne doit pas être supérieure à 3, le rapport « mode utilisateur/mode noyau » d'utilisation du processeur est maintenu à 70/30 et l'état d'inactivité est maintenu à 50 %. sur l'activité du système.

Les outils couramment utilisés pour le processeur incluent : htop, top, vmstat, mpstat, dstat, looks

Zabbix fournit un modèle de surveillance du système : Zabbix Agent Interface

Mémoire : Habituellement, nous devons surveiller l'utilisation de la mémoire et l'utilisation du SWAP. En même temps, nous pouvons utiliser zabbix pour dessiner le graphique de la courbe d'utilisation de la mémoire afin de trouver un débordement de mémoire de service, etc.

Les outils couramment utilisés pour la mémoire incluent : free, top, vmstat, looks

Utilisation de la mémoire : les E/S sont divisées en E/S disque et E/S réseau. En plus de surveiller des données plus détaillées lors du réglage des performances, la surveillance quotidienne se concentre uniquement sur l'utilisation du disque, le débit du disque, l'activité d'écriture du disque, et le réseau surveille également le trafic de la carte réseau.

Les outils couramment utilisés incluent : iostat, iotop, df, iftop, sar, regards

Les autres surveillances du système incluent les ports de processus en cours d'exécution, le nombre de processus, les utilisateurs connectés, les fichiers ouverts, etc. (voir le modèle OS Linux de zabbix pour plus de détails)

6.3 Surveillance des applications

Après avoir compris la surveillance du matériel et la surveillance du système, notre opération supplémentaire consiste à nous connecter au serveur pour voir quels services le serveur exécute, et ils doivent tous être surveillés.

La surveillance des services d'application est également une partie importante du système de surveillance, tels que : LVS, Haproxy, Docker, Nginx, PHP, Memcached, Redis, MySQL, Rabbitmq, etc. Les services associés doivent être surveillés à l'aide de zabbix

L'auteur a déjà écrit sur le processus de fonctionnement détaillé de la surveillance des services, je ne les montrerai donc pas un par un ici.

Zabbix fournit une surveillance des services d'application : Zabbix Agent UserParameter
Surveillance Java fournie par Zabbix : Zabbix JMX Interface
percona fournit une surveillance de base de données MySQL : percona-monitoring-plulgins

6.4 Surveillance du réseau

En tant que site Web de commerce électronique ciblant les utilisateurs à travers le pays, il est également nécessaire de suivre à tout moment l'état du réseau des divers lieux et salles informatiques.

La surveillance du réseau est quelque chose que nous devons prendre en compte lors de la construction d'une plate-forme de surveillance, en particulier pour les scénarios avec plusieurs salles informatiques. L'état du réseau entre chaque salle informatique, l'état du réseau dans la salle informatique et à travers le pays sont tous des objets sur lesquels nous devons nous concentrer. alors comment ? Et si on maîtrisait ces informations de statut ? Nous devons utiliser l'outil de surveillance du réseau Smokeping.

Smokeping est l'œuvre de Tobi Oetiker, l'auteur de rrdtool. Il est écrit en Perl. Il surveille principalement les performances du réseau, les performances du serveur www, les performances des requêtes DNS, etc. Il utilise rrdtool pour dessiner et prend en charge la distribution. de plusieurs agents.

Dans le même temps, comme vous disposez de relativement peu de points de surveillance, vous pouvez également utiliser de nombreux outils de surveillance commerciaux, tels que Monitor Bao, Tingyun, Keynote, Borui, etc. Parallèlement, ces prestataires de services peuvent également vous aider à surveiller l'état de votre CDN.

6.5 Analyse du trafic

L'analyse du trafic d'un site Web est une connaissance qui doit être maîtrisée par le personnel d'exploitation et de maintenance. Par exemple, pour une entreprise de e-commerce :

Grâce aux statistiques et à l'analyse des sources de commandes, nous pouvons comprendre si notre investissement publicitaire sur un site Web donné a atteint les résultats escomptés.

Vous pouvez distinguer le nombre de visiteurs de différentes régions, et même le volume des transactions de marchandises, etc.

Statistiques Baidu, Google Analytics, outils pour les webmasters, etc., intégrez simplement un js dans la page.

Cependant, les données sont toujours entre les mains de l'autre partie et la personnalisation n'est pas pratique, c'est pourquoi Google a créé un outil d'analyse open source appelé piwik

6.6 Surveillance des journaux

Normalement, pendant l'exécution du système, le système d'exploitation génère des journaux système et l'application génère des journaux d'accès aux applications, des journaux d'erreurs, des journaux d'opérations et des journaux réseau. Nous pouvons utiliser ELK pour la surveillance des journaux.

Pour la surveillance des journaux, les exigences les plus courantes sont la collecte, le stockage, la requête et l'affichage.

La communauté open source a des projets open source correspondants : logstash (collection) + elasticsearch (stockage + recherche) + kibana (affichage)

Nous appelons la technologie combinée de ces trois ELK Stack, donc ELK Stack fait référence à la combinaison des piles technologiques Elasticsearch, Logstash et Kibana.

Si les informations du journal sont collectées, s'il y a une exception dans la mise à jour du déploiement, elle peut être immédiatement visible sur Kibana.

Bien sûr, vous pouvez également filtrer les journaux d'erreurs via Zabbix pour générer des alertes.

6.7 Surveillance de la sécurité

Bien qu'il existe de nombreux produits de sécurité open source Linux, tels que iptables à quatre couches, la protection WEB à sept couches Nginx+lua pour implémenter WAF, et enfin collecter les journaux pertinents sur ELK Stack et afficher graphiquement différents types d'attaques. Mais cela prend toujours du temps et personnellement, je pense que l’effet n’est pas très bon. Nous pouvons actuellement choisir de nous connecter à des fournisseurs de services tiers.

Les fournisseurs tiers fournissent des bibliothèques de vulnérabilités complètes, couvrant les services, les portes dérobées, les bases de données, la détection de configuration, CGI, SMTP, etc.

Détection complète des vulnérabilités de l'hôte et des applications Web combinée à une exploitation minière indépendante et au partage de l'industrie pour mettre à jour immédiatement les vulnérabilités 0day afin d'éliminer les derniers risques de sécurité

6.8 Surveillance des API

À mesure que les API deviennent de plus en plus importantes, il est évident que nous avons également besoin de ces données pour savoir si les API que nous fournissons fonctionnent correctement.
Surveiller l'interface API des requêtes GET, POST, PUT, DELETE, HEAD, OPTIONS La disponibilité, l'exactitude et le temps de réponse sont les trois principaux indicateurs de performance

. 6.9 Surveillance des performances

Surveillance complète des performances des pages Web, du temps de réponse DNS, du temps d'établissement de la connexion HTTP, de l'indice de performance des pages, du temps de réponse, de la disponibilité, de la taille des éléments, etc.
Zabbix fournit une surveillance des URL : Zabbix Web Monitoring

6.10 Surveillance des activités

Une plateforme de surveillance sans surveillance des indicateurs commerciaux n'est pas une plateforme de surveillance complète. Habituellement, dans notre système de surveillance, nous devons surveiller nos indicateurs commerciaux importants et définir des seuils pour les notifications d'alarme.

Par exemple, le secteur du commerce électronique :

Combien de commandes sont générées par minute ;

Combien d'utilisateurs sont enregistrés par minute ;

Combien d'utilisateurs actifs y a-t-il chaque jour ;

Combien de promotions y a-t-il chaque jour ;

Combien d'utilisateurs sont initiés à l'activité de promotion ;

Combien de trafic la promotion génère-t-elle

Combien de bénéfices la promotion rapporte-t-elle ?

Etc. Des indicateurs importants peuvent être ajoutés à Zabbix puis affichés via l'écran.

7. Surveillance et alarme Il existe de nombreuses façons de notifier les alarmes de panne. Bien entendu, les méthodes les plus couramment utilisées sont les messages texte, les e-mails et les alarmes SMS

.

8. Gestion des alarmes Comment gérer les défauts après une alarme générale ? Tout d'abord, nous pouvons le gérer automatiquement via le mécanisme de mise à niveau de l'alarme. Par exemple, si le service Nginx est en panne, nous pouvons configurer la mise à niveau de l'alarme pour démarrer automatiquement Nginx. Mais si une panne grave survient dans une entreprise générale, nous affectons généralement différents personnels d'exploitation et de maintenance pour la gérer en fonction du niveau de la panne et de l'activité de la panne. Bien entendu, différentes formes d’entreprise, différentes architectures et différents services peuvent adopter des méthodes différentes. Il n’existe pas de modèle fixe pouvant être appliqué.

9. Suivi des entretiens Dans les entretiens d'exploitation et de maintenance, on nous pose souvent des questions liées à la surveillance. Alors, comment répondre à cette question ? Je vous ai fourni une idée de réponse simple pour cet article.

Surveillance du matériel. La surveillance des commutateurs de routeur via SNMP (vous pouvez communiquer avec certains fabricants pour savoir comment procéder), de la température du serveur et autres, peut être réalisée via IPMI. Bien sûr, s’il n’y a pas de matériel et que tout est dans le cloud, ignorez simplement cette étape.

Surveillance du système. Tels que la charge du processeur, le changement de contexte, l'utilisation de la mémoire, la lecture et l'écriture du disque, l'utilisation du disque, l'utilisation des inodes du disque. Bien entendu, ceux-ci doivent être configurés avec des déclencheurs, car le paramètre par défaut est trop bas et provoquera des alarmes fréquentes.

Suivi des services. Par exemple, l'architecture LAMP utilisée par l'entreprise, nginx est livré avec son propre module Status, PHP a également un Status associé, MySQL peut être surveillé via l'outil officiel percona et Redis obtient des informations via ses propres informations pour le filtrage, etc. Les méthodes sont similaires. Ou apportez votre propre service. Soit vous utilisez des scripts pour implémenter le contenu que vous souhaitez surveiller, ainsi que des fonctions d'alarme et de graphiques.

Surveillance du réseau. S'il s'agit d'un hôte cloud et qu'il ne couvre pas les salles informatiques, vous pouvez choisir de ne pas surveiller le réseau. Bien sûr, vous avez dit que nous traversions des salles informatiques, etc. Il est recommandé d'utiliser smokeping pour la surveillance liée au réseau. Ou confiez-le directement à votre ingénieur réseau, car il existe des spécialités dans le secteur.

Surveillance de sécurité. S'il s'agit d'un hébergeur cloud, vous pouvez envisager d'utiliser sa propre protection de sécurité. Bien sûr, vous pouvez également utiliser iptables. S'il s'agit de matériel, il est recommandé d'utiliser un pare-feu matériel. En utilisant le cloud, vous pouvez acheter un anti-DDoS pour éviter les dysfonctionnements pouvant entraîner un temps d'arrêt d'une journée. S'il s'agit d'un système, les solutions de base telles que les autorisations, les mots de passe, la sauvegarde et la récupération doivent être correctement mises en œuvre. web peut également utiliser Nginx+Lua pour implémenter un pare-feu au niveau Web. Bien entendu, vous pouvez également utiliser Openresty intégré.

Surveillance Web. Il existe encore de nombreux sujets concernant la surveillance Web. Par exemple, vous pouvez utiliser la surveillance Web intégrée pour surveiller les retards liés aux pages, le temps de réponse js, le temps de téléchargement, etc. Ici, je recommande d'utiliser un logiciel commercial professionnel, Monitoring Bao ou Tingyun pour y parvenir. Après tout, il existe des salles informatiques partout dans le pays. (S’il s’agit d’une salle multi-machines, parlons-en séparément)

Surveillance des journaux. S'il s'agit du Web, vous pouvez l'utiliser pour surveiller les journaux d'erreurs 50x et 40x de Nginx, ainsi que le journal des erreurs de PHP. En fait, ces exigences ne sont rien d'autre que la collecte, le stockage, la requête et l'affichage. Nous pouvons en fait utiliser ELKstack open source pour y parvenir. Logstash (collection), elasticsearch (stockage + recherche), kibana (affichage)
Suivi des affaires. Nous avons fait beaucoup de choses, mais au final, nous assurons toujours le fonctionnement de l'entreprise. Ce n’est qu’ainsi que le suivi que nous effectuons aura un sens. Par conséquent, le suivi au niveau de l'entreprise nécessite des réunions et des discussions avec le développeur et le directeur pour surveiller les indicateurs commerciaux les plus importants (doit être confirmé par une réunion) et peut ensuite être mis en œuvre via un simple script, et enfin définir le déclencheur.

Analyse du trafic. Nous utilisons généralement de nombreux outils comme awk sed xxx pour analyser les journaux. Ce n’est pas très pratique pour nous de compter les IP, PV et UV. Vous pouvez ensuite utiliser Baidu Statistics, Google Statistics et Commerce pour développer des codes intégrés. Afin d'éviter la confidentialité, vous pouvez également utiliser piwik pour effectuer une analyse du trafic associée.

Visualisation. Utilisez screen et introduisez des bibliothèques tierces pour embellir l'interface. Dans le même temps, nous devons également savoir que le volume des commandes augmente ou diminue soudainement. En d’autres termes, une grande vague de trafic est soudainement arrivée. D’où vient ce trafic ? A-t-il été promu ou a-t-il été attaqué ? La plateforme de surveillance peut être combinée pour trier les relations commerciales entre différents systèmes.

Surveillance automatisée. Comme nous avons fait beaucoup de travail ci-dessus, nous ne pouvons bien sûr pas ajouter les clés une par une. Ceci peut être réalisé grâce au mode actif et au mode passif de Zabbix. Bien sûr, il est préférable de le faire via l'API.
Résumé

Si nous voulons vraiment parvenir à un système de surveillance plus complet, les logiciels open source actuels ne peuvent pas bien le satisfaire. Des entreprises qualifiées ont commencé à développer leurs propres systèmes de surveillance, comme l'Open-Falcon open source de Xiaomi. Il existe également de meilleurs cadres de surveillance open source tels que Sensu, etc., ainsi que influxdb et grafana, qui peuvent être utilisés pour personnaliser la plate-forme de surveillance adaptée à votre propre entreprise.

Bien sûr, ce que j'ai dit est encore très simple. Mon expérience est limitée et mes idées ne peuvent pas apporter beaucoup. Voici quelques-unes des méthodes et expériences que je partage en matière de surveillance. (Vieux oiseaux, ne vous plaignez pas)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer