Maison >Problème commun >Connu comme le système de surveillance de nouvelle génération ! Voyons à quel point c'est génial
Prometheus est un système de surveillance et d'alarme open source basé sur une base de données de séries temporelles, nous devons mentionner SoundCloud, qui est une plateforme de partage de musique en ligne, similaire. au partage de vidéos YouTube, à mesure qu'ils avancent de plus en plus loin dans l'architecture des microservices, ils proposent des centaines de services et l'utilisation des systèmes de surveillance traditionnels StatsD et Graphite présente de nombreuses limitations.
Ils ont donc commencé à développer un nouveau système de surveillance en 2012. L'auteur original de Prometheus est Matt T. Proud, qui a également rejoint SoundCloud en 2012. En fait, avant de rejoindre SoundCloud, Matt travaillait chez Google. Il s'est inspiré du gestionnaire de cluster de Google, Borg, et de son système de surveillance Borgmon, pour développer l'open. système de surveillance des sources Prometheus Comme de nombreux projets Google, le langage de programmation utilisé est Go.
Évidemment, en tant que solution de système de surveillance de l'architecture des microservices, Prometheus est également indissociable des conteneurs. Dès le 9 août 2006, Eric Schmidt a proposé pour la première fois le concept de cloud computing (Cloud Computing) lors de la Search Engine Conference. Au cours des dix années suivantes, le développement du cloud computing a été rapide.
En 2013, Matt Stine de Pivotal a proposé le concept de Cloud Native. Cloud Native se compose d'une architecture de microservices, de DevOps et d'une infrastructure agile représentée par des conteneurs pour aider les entreprises à fournir des logiciels de manière rapide, continue et fiable.
Afin d'unifier les interfaces de cloud computing et les normes associées, en juillet 2015, la Cloud Native Computing Foundation (CNCF), affiliée à la Linux Foundation, a vu le jour. Le premier projet à rejoindre le CNCF était Kubernetes de Google, et Prometheus a été le deuxième à le rejoindre (en 2016).
Actuellement, Prometheus est largement utilisé dans le système de surveillance des clusters Kubernetes. Les étudiants intéressés par l'histoire de Prometheus peuvent consulter le discours de l'ingénieur SoundCloud Tobias Schmidt lors de la conférence PromCon 2016 : L'histoire de Prometheus à SoundCloud.
Nous pouvons trouver un article sur le blog officiel de SoundCloud expliquant pourquoi ils doivent développer un nouveau système de surveillance, Prometheus : Monitoring at SoundCloud. Dans cet article, ils ont expliqué qu'ils avaient besoin du système de surveillance. répondent aux quatre caractéristiques suivantes :
Simplement parlant, il s'agit des quatre caractéristiques suivantes :
"Modèle de données multidimensionnel" Cette fonctionnalité correspond exactement à ce dont a besoin une base de données de séries chronologiques. Prometheus n'est donc pas seulement un système de surveillance, mais également une base de données de séries chronologiques. Alors pourquoi Prometheus n'utilise-t-il pas directement la base de données de séries chronologiques existante comme stockage principal ? En effet, SoundCloud souhaite non seulement que son système de surveillance ait les caractéristiques d'une base de données de séries chronologiques, mais doit également être très facile à déployer et à entretenir.Cependant, Prometheus fournit également un moyen de prendre en charge le mode Push. Vous pouvez transmettre vos données vers Push Gateway, et Prometheus obtient les données de Push Gateway via Pull. L'exportateur actuel peut déjà collecter la plupart des données tierces, telles que Docker, HAProxy, StatsD, JMX, etc. Le site officiel propose une liste d'exportateurs.
En plus de ces quatre fonctionnalités majeures, à mesure que Prometheus continue de se développer, il commence à prendre en charge des fonctionnalités de plus en plus avancées, telles que : la découverte de services, un affichage de graphiques plus riche, l'utilisation de stockage externe, des règles d'alarme puissantes et diverses méthodes de notification. L'image suivante est le schéma global de l'architecture de Prometheus :
Comme le montre l'image ci-dessus, l'écosystème Prometheus contient plusieurs composants clés : serveur Prometheus, Pushgateway, Alertmanager, Web UI, etc., mais la plupart des composants sont non requis Bien entendu, le composant principal est le serveur Prometheus, qui est responsable de la collecte et du stockage des données d'indicateur, de la prise en charge des requêtes d'expression et de la génération d'alarmes. Ensuite, nous installerons le serveur Prometheus.
Prometheus peut prendre en charge diverses méthodes d'installation, notamment Docker, Ansible, Chef, Puppet, Saltstack, etc. Les deux méthodes les plus simples sont présentées ci-dessous. L'une consiste à utiliser directement le fichier exécutable compilé, qui peut être utilisé immédiatement, et l'autre consiste à utiliser une image Docker.
Obtenez d'abord la dernière version et l'adresse de téléchargement de Prometheus sur la page de téléchargement du site officiel. La dernière version est la 2.4.3 (octobre 2018).
$ wget https://github.com/prometheus/prometheus/releases/download/v2.4.3/prometheus-2.4.3.linux-amd64.tar.gz $ tar xvfz prometheus-2.4.3.linux-amd64.tar.gz
Puis passez au répertoire de décompression et vérifiez la version Prometheus :
$ cd prometheus-2.4.3.linux-amd64 $ ./prometheus --version prometheus, version 2.4.3 (branch: HEAD, revision: 167a4b4e73a8eca8df648d2d2043e21bdb9a7449) build user: root@1e42b46043e9 build date: 20181004-08:42:02 go version: go1.11.1
Exécutez le serveur Prometheus :
$ ./prometheus --config.file=prometheus.yml
使用 Docker 安装 Prometheus 更简单,运行下面的命令即可:
$ sudo docker run -d -p 9090:9090 prom/prometheus
一般情况下,我们还会指定配置文件的位置:
$ sudo docker run -d -p 9090:9090 \ -v ~/docker/prometheus/:/etc/prometheus/ \ prom/prometheus
我们把配置文件放在本地 ~/docker/prometheus/prometheus.yml,这样可以方便编辑和查看,通过 -v 参数将本地的配置文件挂载到 /etc/prometheus/ 位置,这是 prometheus 在容器中默认加载的配置文件位置。如果我们不确定默认的配置文件在哪,可以先执行上面的不带 -v 参数的命令,然后通过 docker inspect 命名看看容器在运行时默认的参数有哪些(下面的 Args 参数):
$ sudo docker inspect 0c [...] "Id": "0c4c2d0eed938395bcecf1e8bb4b6b87091fc4e6385ce5b404b6bb7419010f46", "Created": "2018-10-15T22:27:34.56050369Z", "Path": "/bin/prometheus", "Args": [ "--config.file=/etc/prometheus/prometheus.yml", "--storage.tsdb.path=/prometheus", "--web.console.libraries=/usr/share/prometheus/console_libraries", "--web.console.templates=/usr/share/prometheus/consoles" ], [...]
正如上面两节看到的,Prometheus 有一个配置文件,通过参数 --config.file 来指定,配置文件格式为 YAML。我们可以打开默认的配置文件 prometheus.yml 看下里面的内容:
/etc/prometheus $ cat prometheus.yml # my global config global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: # - alertmanager:9093 # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: # - "first_rules.yml" # - "second_rules.yml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: 'prometheus' # metrics_path defaults to '/metrics' # scheme defaults to 'http'. static_configs: - targets: ['localhost:9090']
Prometheus 默认的配置文件分为四大块:
Après avoir installé Prometheus en suivant les étapes ci-dessus, nous pouvons maintenant commencer à découvrir Prometheus. Prometheus fournit une interface utilisateur Web visuelle pour faciliter notre fonctionnement. Visitez simplement http://localhost:9090/. Il accédera par défaut à la page Graph :
Vous pourriez être submergé lorsque vous visitez cette page pour la première fois. Jetez d'abord un œil au contenu des autres menus, par exemple : les alertes affichent toutes les règles d'alarme définies, l'état peut afficher diverses informations sur l'état de Prometheus, notamment les informations sur l'exécution et la construction, les indicateurs de ligne de commande, la configuration, les règles, les cibles, la découverte de services, etc. .
En fait, la page Graph est la fonction la plus puissante de Prometheus. Ici, nous pouvons utiliser une expression spéciale fournie par Prometheus pour interroger les données de surveillance. Cette expression est appelée PromQL (Prometheus Query Language). Grâce à PromQL, vous pouvez non seulement interroger des données sur la page Graphique, mais également via l'API HTTP fournie par Prometheus. Les données de surveillance interrogées peuvent être affichées sous deux formes : liste et graphique (correspondant aux deux étiquettes Console et Graph dans la figure ci-dessus).
Comme nous l'avons dit ci-dessus, Prometheus lui-même expose également de nombreux indicateurs de surveillance, qui peuvent également être interrogés sur la page Graphique. Développez la liste déroulante à côté du bouton Exécuter, et vous pouvez voir de nombreux noms d'indicateurs. un à volonté, par exemple : promhttp_metric_handler_requests_total, cet indicateur représente le nombre de visites sur la page /metrics. Prometheus utilise cette page pour capturer ses propres données de surveillance. Les résultats de la requête dans la balise Console sont les suivants :
Lors de l'introduction du fichier de configuration Prometheus ci-dessus, vous pouvez voir que le paramètre scrape_interval est de 15 s, ce qui signifie que Prometheus accède à la page /metrics toutes les 15 s, nous actualisons donc le page après 15 s. Vous pouvez voir que la valeur de l’indicateur augmentera automatiquement. Cela peut être vu plus clairement dans la balise Graph :
要学习 PromQL,首先我们需要了解下 Prometheus 的数据模型,一条 Prometheus 数据由一个指标名称(metric)和 N 个标签(label,N >= 0)组成的,比如下面这个例子:
promhttp\_metric\_handler\_requests\_total{code="200",instance="192.168.0.107:9090",job="prometheus"} 106
这条数据的指标名称为 promhttp_metric_handler_requests_total,并且包含三个标签 code、instance 和 job,这条记录的值为 106。上面说过,Prometheus 是一个时序数据库,相同指标相同标签的数据构成一条时间序列。如果以传统数据库的概念来理解时序数据库,可以把指标名当作表名,标签是字段,timestamp 是主键,还有一个 float64 类型的字段表示值(Prometheus 里面所有值都是按 float64 存储)。另外,搜索公众号Linux就该这样学后台回复“Linux”,获取一份惊喜礼包。
这种数据模型和 OpenTSDB 的数据模型是比较类似的,详细的信息可以参考官网文档 Data model。
虽然 Prometheus 里存储的数据都是 float64 的一个数值,但如果我们按类型来分,可以把 Prometheus 的数据分成四大类:
Counter est utilisé pour compter, par exemple : le nombre de demandes, le nombre de tâches terminées et le nombre d'erreurs. la valeur continuera d’augmenter et ne diminuera pas. La jauge est une valeur générale, qui peut être grande ou petite, comme les changements de température et les changements d'utilisation de la mémoire. L'histogramme est un histogramme, ou graphique à barres, souvent utilisé pour suivre l'échelle des événements, tels que le temps de demande et la taille de la réponse.
Ce qui est spécial, c'est qu'il peut regrouper le contenu enregistré et fournir des fonctions de comptage et de somme. Le résumé est très similaire à l'histogramme et est également utilisé pour suivre l'échelle des occurrences d'événements. La différence est qu'il fournit une fonction quantile qui peut diviser les résultats du suivi en pourcentages. Par exemple : une valeur quantile de 0,95 signifie prendre 95 % des données dans la valeur échantillonnée.
Ces quatre types de données ne se distinguent que par le fournisseur d'indicateurs, qui est l'exportateur mentionné ci-dessus. Si vous devez écrire votre propre exportateur ou exposer des indicateurs pour que Prometheus puisse les explorer dans le système existant, vous pouvez utiliser les bibliothèques client Prometheus, à l'adresse . cette fois, vous devez considérer les types de données des différents indicateurs. Si vous n'avez pas besoin de l'implémenter vous-même, mais d'utiliser directement des exportateurs prêts à l'emploi, puis de vérifier les données des indicateurs pertinents dans Prometheus, vous n'avez pas besoin d'y prêter trop d'attention. Cependant, comprenez les types de données. de Prometheus est également utile pour écrire du PromQL correct et raisonnable.
我们从一些例子开始学习 PromQL,最简单的 PromQL 就是直接输入指标名称,比如:
# 表示 Prometheus 能否抓取 target 的指标,用于 target 的健康检查 up
这条语句会查出 Prometheus 抓取的所有 target 当前运行情况,譬如下面这样:
up{instance="192.168.0.107:9090",job="prometheus"} 1 up{instance="192.168.0.108:9090",job="prometheus"} 1 up{instance="192.168.0.107:9100",job="server"} 1 up{instance="192.168.0.108:9104",job="mysql"} 0
也可以指定某个 label 来查询:
up{job="prometheus"}
这种写法被称为 Instant vector selectors,这里不仅可以使用 = 号,还可以使用 !=、=~、!~,比如下面这样:
up{job!="prometheus"} up{job=~"server|mysql"} up{job=~"192\.168\.0\.107.+"} #=~ 是根据正则表达式来匹配,必须符合 RE2 的语法。
和 Instant vector selectors 相应的,还有一种选择器,叫做 Range vector selectors,它可以查出一段时间内的所有数据:
http_requests_total[5m]
这条语句查出 5 分钟内所有抓取的 HTTP 请求数,注意它返回的数据类型是 Range vector,没办法在 Graph 上显示成曲线图,一般情况下,会用在 Counter 类型的指标上,并和 rate() 或 irate() 函数一起使用(注意 rate 和 irate 的区别)。
# 计算的是每秒的平均值,适用于变化很慢的 counter # per-second average rate of increase, for slow-moving counters rate(http_requests_total[5m]) # 计算的是每秒瞬时增加速率,适用于变化很快的 counter # per-second instant rate of increase, for volatile and fast-moving counters irate(http_requests_total[5m])
此外,PromQL 还支持 count、sum、min、max、topk 等 聚合操作,还支持 rate、abs、ceil、floor 等一堆的 内置函数,更多的例子,还是上官网学习吧。如果感兴趣,我们还可以把 PromQL 和 SQL 做一个对比,会发现 PromQL 语法更简洁,查询性能也更高。
我们不仅仅可以在 Prometheus 的 Graph 页面查询 PromQL,Prometheus 还提供了一种 HTTP API 的方式,可以更灵活的将 PromQL 整合到其他系统中使用,譬如下面要介绍的 Grafana,就是通过 Prometheus 的 HTTP API 来查询指标数据的。实际上,我们在 Prometheus 的 Graph 页面查询也是使用了 HTTP API。
我们看下 Prometheus 的 HTTP API 官方文档,它提供了下面这些接口:
GET /api/v1/query GET /api/v1/query_range GET /api/v1/series GET /api/v1/label/<label_name>/values GET /api/v1/targets GET /api/v1/rules GET /api/v1/alerts GET /api/v1/targets/metadata GET /api/v1/alertmanagers GET /api/v1/status/config GET /api/v1/status/flags
从 Prometheus v2.1 开始,又新增了几个用于管理 TSDB 的接口:
POST /api/v1/admin/tsdb/snapshot POST /api/v1/admin/tsdb/delete_series POST /api/v1/admin/tsdb/clean_tombstones
虽然 Prometheus 提供的 Web UI 也可以很好的查看不同指标的视图,但是这个功能非常简单,只适合用来调试。要实现一个强大的监控系统,还需要一个能定制展示不同指标的面板,能支持不同类型的展现方式(曲线图、饼状图、热点图、TopN 等),这就是仪表盘(Dashboard)功能。
因此 Prometheus 开发了一套仪表盘系统 PromDash,不过很快这套系统就被废弃了,官方开始推荐使用 Grafana 来对 Prometheus 的指标数据进行可视化,这不仅是因为 Grafana 的功能非常强大,而且它和 Prometheus 可以完美的无缝融合。
Grafana 是一个用于可视化大型测量数据的开源系统,它的功能非常强大,界面也非常漂亮,使用它可以创建自定义的控制面板,你可以在面板中配置要显示的数据和显示方式,它 支持很多不同的数据源,比如:Graphite、InfluxDB、OpenTSDB、Elasticsearch、Prometheus 等,而且它也 支持众多的插件。
下面我们就体验下使用 Grafana 来展示 Prometheus 的指标数据。首先我们来安装 Grafana,我们使用最简单的 Docker 安装方式:
$ docker run -d -p 3000:3000 grafana/grafana
运行上面的 docker 命令,Grafana 就安装好了!你也可以采用其他的安装方式,参考 官方的安装文档。安装完成之后,我们访问 http://localhost:3000/ 进入 Grafana 的登陆页面,输入默认的用户名和密码(admin/admin)即可。
要使用 Grafana,第一步当然是要配置数据源,告诉 Grafana 从哪里取数据,我们点击 Add data source 进入数据源的配置页面:
我们在这里依次填上:
RName : PrometheusJusqu'à présent, nous n'avons vu que quelques indicateurs qui n'ont aucune utilité pratique. Si nous voulons vraiment utiliser Prometheus dans notre environnement de production, nous devons souvent prêter attention à divers indicateurs. Par exemple, la charge CPU du serveur, l'utilisation de la mémoire, la surcharge d'E/S, le trafic réseau entrant et sortant, etc.
Comme mentionné ci-dessus, Prometheus utilise la méthode Pull pour obtenir les données de l'indicateur. Pour que Prometheus obtienne les données de la cible, vous devez d'abord installer le programme de collecte d'indicateurs sur la cible et exposer l'interface HTTP pour que Prometheus puisse interroger cet indicateur. Le programme de collecte s'appelle un exportateur. Différents indicateurs nécessitent la collecte de différents exportateurs. Actuellement, il existe un grand nombre d'exportateurs disponibles, couvrant presque tous les types de systèmes et de logiciels que nous utilisons couramment.
Le site officiel répertorie une liste des exportateurs couramment utilisés. Chaque exportateur suit une convention de port pour éviter les conflits de ports, c'est-à-dire en commençant par 9 100 et en augmentant dans l'ordre. Il convient également de noter que certains logiciels et systèmes n'ont pas besoin d'installer Exporter car ils assurent eux-mêmes la fonction d'exposer les données des indicateurs au format Prometheus, tels que Kubernetes, Grafana, Etcd, Ceph, etc.
Dans cette section, collectons quelques données utiles.
首先我们来收集服务器的指标,这需要安装 node_exporter,这个 exporter 用于收集 *NIX 内核的系统,如果你的服务器是 Windows,可以使用 WMI exporter。
和 Prometheus server 一样,node_exporter 也是开箱即用的:
$ wget https://github.com/prometheus/node_exporter/releases/download/v0.16.0/node_exporter-0.16.0.linux-amd64.tar.gz $ tar xvfz node_exporter-0.16.0.linux-amd64.tar.gz $ cd node_exporter-0.16.0.linux-amd64 $ ./node_exporter
node_exporter 启动之后,我们访问下 /metrics 接口看看是否能正常获取服务器指标:
$ curl http://localhost:9100/metrics
如果一切 OK,我们可以修改 Prometheus 的配置文件,将服务器加到 scrape_configs 中:
scrape_configs: - job_name: 'prometheus' static_configs: - targets: ['192.168.0.107:9090'] - job_name: 'server' static_configs: - targets: ['192.168.0.107:9100']
修改配置后,需要重启 Prometheus 服务,或者发送 HUP 信号也可以让 Prometheus 重新加载配置:
$ killall -HUP prometheus
在 Prometheus Web UI 的 Status -> Targets 中,可以看到新加的服务器:
Dans la liste déroulante des indicateurs de la page Graphique, vous pouvez voir de nombreux indicateurs dont les noms commencent par node. Par exemple, nous saisissons node_load1
Observez la charge du serveur :
Si vous souhaitez afficher les indicateurs du serveur dans Grafana. , vous pouvez rechercher un nœud sur la page Tableaux de bord de l'exportateur Grafana, il existe de nombreux modèles de panneaux qui peuvent être utilisés directement, tels que : Node Exporter Server Metrics ou Node Exporter Full, etc. Nous ouvrons la page du tableau de bord d'importation de Grafana et saisissons l'URL du panneau (https://grafana.com/dashboards/405) ou l'ID (405).
一般情况下,node_exporter 都是直接运行在要收集指标的服务器上的,官方不推荐用 Docker 来运行 node_exporter。如果逼不得已一定要运行在 Docker 里,要特别注意,这是因为 Docker 的文件系统和网络都有自己的 namespace,收集的数据并不是宿主机真实的指标。可以使用一些变通的方法,比如运行 Docker 时加上下面这样的参数:
docker run -d \ --net="host" \ --pid="host" \ -v "/:/host:ro,rslave" \ quay.io/prometheus/node-exporter \ --path.rootfs /host
关于 node_exporter 的更多信息,可以参考 node_exporter 的文档 和 Prometheus 的官方指南 Monitoring Linux host metrics with the Node Exporter。
mysqld_exporter 是 Prometheus 官方提供的一个 exporter,我们首先 下载最新版本 并解压(开箱即用):
$ wget https://github.com/prometheus/mysqld_exporter/releases/download/v0.11.0/mysqld_exporter-0.11.0.linux-amd64.tar.gz $ tar xvfz mysqld_exporter-0.11.0.linux-amd64.tar.gz $ cd mysqld_exporter-0.11.0.linux-amd64/
mysqld_exporter 需要连接到 mysqld 才能收集它的指标,可以通过两种方式来设置 mysqld 数据源。第一种是通过环境变量 DATA_SOURCE_NAME,这被称为 DSN(数据源名称),它必须符合 DSN 的格式,一个典型的 DSN 格式像这样:user:password@(host:port)/。
$ export DATA_SOURCE_NAME='root:123456@(192.168.0.107:3306)/' $ ./mysqld_exporter
另一种方式是通过配置文件,默认的配置文件是 ~/.my.cnf,或者通过 --config.my-cnf 参数指定:
$ ./mysqld_exporter --config.my-cnf=".my.cnf"
配置文件的格式如下:
$ cat .my.cnf [client] host=localhost port=3306 user=root password=123456
如果要把 MySQL 的指标导入 Grafana,可以参考 这些 Dashboard JSON。
这里为简单起见,在 mysqld_exporter 中直接使用了 root 连接数据库,在真实环境中,可以为 mysqld_exporter 创建一个单独的用户,并赋予它受限的权限(PROCESS、REPLICATION CLIENT、SELECT),最好还限制它的最大连接数(MAX_USER_CONNECTIONS)。
CREATE USER 'exporter'@'localhost' IDENTIFIED BY 'password' WITH MAX_USER_CONNECTIONS 3; GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'localhost';
官方提供了两种收集 Nginx 指标的方式。
不过,在 nginx-module-vts 最新的版本中增加了一个新接口:/status/format/prometheus,这个接口可以直接返回 Prometheus 的格式,从这点这也能看出 Prometheus 的影响力,估计 Nginx VTS exporter 很快就要退役了(TODO:待验证)。
除此之外,还有很多其他的方式来收集 Nginx 的指标,比如:nginx_exporter 通过抓取 Nginx 自带的统计页面 /nginx_status 可以获取一些比较简单的指标(需要开启 ngx_http_stub_status_module 模块);nginx_request_exporter 通过 syslog 协议 收集并分析 Nginx 的 access log 来统计 HTTP 请求相关的一些指标;nginx-prometheus-shiny-exporter 和 nginx_request_exporter 类似,也是使用 syslog 协议来收集 access log,不过它是使用 Crystal 语言 写的。还有 vovolie/lua-nginx-prometheus 基于 Openresty、Prometheus、Consul、Grafana 实现了针对域名和 Endpoint 级别的流量统计。另外,搜索公众号技术社区后台回复“猴子”,获取一份惊喜礼包。
有需要或感兴趣的同学可以对照说明文档自己安装体验下,这里就不一一尝试了。
最后让我们来看下如何收集 Java 应用的指标,Java 应用的指标一般是通过 JMX(Java Management Extensions) 来获取的,顾名思义,JMX 是管理 Java 的一种扩展,它可以方便的管理和监控正在运行的 Java 程序。
JMX Exporter 用于收集 JMX 指标,很多使用 Java 的系统,都可以使用它来收集指标,比如:Kafaka、Cassandra 等。首先我们下载 JMX Exporter:
$ wget https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.3.1/jmx_prometheus_javaagent-0.3.1.jar
JMX Exporter 是一个 Java Agent 程序,在运行 Java 程序时通过 -javaagent 参数来加载:
$ java -javaagent:jmx_prometheus_javaagent-0.3.1.jar=9404:config.yml -jar spring-boot-sample-1.0-SNAPSHOT.jar
其中,9404 是 JMX Exporter 暴露指标的端口,config.yml 是 JMX Exporter 的配置文件,它的内容可以 参考 JMX Exporter 的配置说明 。然后检查下指标数据是否正确获取:
$ curl http://localhost:9404/metrics
至此,我们能收集大量的指标数据,也能通过强大而美观的面板展示出来。不过作为一个监控系统,最重要的功能,还是应该能及时发现系统问题,并及时通知给系统负责人,这就是 Alerting(告警)。
Prometheus 的告警功能被分成两部分:一个是告警规则的配置和检测,并将告警发送给 Alertmanager,另一个是 Alertmanager,它负责管理这些告警,去除重复数据,分组,并路由到对应的接收方式,发出报警。常见的接收方式有:Email、PagerDuty、HipChat、Slack、OpsGenie、WebHook 等。
我们在上面介绍 Prometheus 的配置文件时了解到,它的默认配置文件 prometheus.yml 有四大块:global、alerting、rule_files、scrape_config,其中 rule_files 块就是告警规则的配置项,alerting 块用于配置 Alertmanager,这个我们下一节再看。现在,先让我们在 rule_files 块中添加一个告警规则文件:
rule_files: - "alert.rules"
然后参考 官方文档,创建一个告警规则文件 alert.rules:
groups: - name: example rules: # Alert for any instance that is unreachable for >5 minutes. - alert: InstanceDown expr: up == 0 for: 5m labels: severity: page annotations: summary: "Instance {{ $labels.instance }} down" description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes." # Alert for any instance that has a median request latency >1s. - alert: APIHighRequestLatency expr: api_http_request_latencies_second{quantile="0.5"} > 1 for: 10m annotations: summary: "High request latency on {{ $labels.instance }}" description: "{{ $labels.instance }} has a median request latency above 1s (current value: {{ $value }}s)"
这个规则文件里,包含了两条告警规则:InstanceDown 和 APIHighRequestLatency。顾名思义,InstanceDown 表示当实例宕机时(up === 0)触发告警,APIHighRequestLatency 表示有一半的 API 请求延迟大于 1s 时(api_http_request_latencies_second{quantile="0.5"} > 1)触发告警。
配置好后,需要重启下 Prometheus server,然后访问 http://localhost:9090/rules 可以看到刚刚配置的规则:
访问 http://localhost:9090/alerts 可以看到根据配置的规则生成的告警:
这里我们将一个实例停掉,可以看到有一条 alert 的状态是 PENDING,这表示已经触发了告警规则,但还没有达到告警条件。这是因为这里配置的 for 参数是 5m,也就是 5 分钟后才会触发告警,我们等 5 分钟,可以看到这条 alert 的状态变成了 FIRING。
虽然 Prometheus 的 /alerts 页面可以看到所有的告警,但是还差最后一步:触发告警时自动发送通知。这是由 Alertmanager 来完成的,我们首先 下载并安装 Alertmanager,和其他 Prometheus 的组件一样,Alertmanager 也是开箱即用的:
$ wget https://github.com/prometheus/alertmanager/releases/download/v0.15.2/alertmanager-0.15.2.linux-amd64.tar.gz $ tar xvfz alertmanager-0.15.2.linux-amd64.tar.gz $ cd alertmanager-0.15.2.linux-amd64 $ ./alertmanager
Alertmanager 启动后默认可以通过 http://localhost:9093/ 来访问,但是现在还看不到告警,因为我们还没有把 Alertmanager 配置到 Prometheus 中,我们回到 Prometheus 的配置文件 prometheus.yml,添加下面几行:
alerting: alertmanagers: - scheme: http static_configs: - targets: - "192.168.0.107:9093"
这个配置告诉 Prometheus,当发生告警时,将告警信息发送到 Alertmanager,Alertmanager 的地址为 http://192.168.0.107:9093。也可以使用命名行的方式指定 Alertmanager:
$ ./prometheus -alertmanager.url=http://192.168.0.107:9093
这个时候再访问 Alertmanager,可以看到 Alertmanager 已经接收到告警了:
下面的问题就是如何让 Alertmanager 将告警信息发送给我们了,我们打开默认的配置文件 alertmanager.ym:
global: resolve_timeout: 5m route: group_by: ['alertname'] group_wait: 10s group_interval: 10s repeat_interval: 1h receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
其中 global 块表示一些全局配置;route 块表示通知路由,可以根据不同的标签将告警通知发送给不同的 receiver,这里没有配置 routes 项,表示所有的告警都发送给下面定义的 web.hook 这个 receiver;如果要配置多个路由,可以参考 这个例子:
routes: - receiver: 'database-pager' group_wait: 10s match_re: service: mysql|cassandra - receiver: 'frontend-pager' group_by: [product, environment] match: team: frontend
紧接着,receivers 块表示告警通知的接收方式,每个 receiver 包含一个 name 和一个 xxx_configs,不同的配置代表了不同的接收方式,Alertmanager 内置了下面这些接收方式:
email_config hipchat_config pagerduty_config pushover_config slack_config opsgenie_config victorops_config wechat_configs webhook_config
虽然接收方式很丰富,但是在国内,其中大多数接收方式都很少使用。最常用到的,莫属 email_config 和 webhook_config,另外 wechat_configs 可以支持使用微信来告警,也是相当符合国情的了。
En fait, il est difficile de fournir une méthode globale de notification d'alarme, car il existe différents logiciels de messagerie et chaque pays peut être différent, il est donc impossible de la couvrir entièrement. C'est pourquoi Alertmanager a décidé de ne pas ajouter de nouveaux récepteurs. , mais recommande d'utiliser des webhooks pour intégrer des méthodes de réception personnalisées. Vous pouvez vous référer à ces exemples d'intégration, tels que la connexion de DingTalk à Prometheus AlertManager WebHook.
Jusqu'à présent, nous avons appris la plupart des fonctions de Prometheus. La combinaison de Prometheus + Grafana + Alertmanager peut complètement construire un système de surveillance très complet. Cependant, lors de son utilisation réelle, nous rencontrerons davantage de problèmes.
Étant donné que Prometheus obtient activement des données de surveillance via Pull, il est nécessaire de spécifier manuellement la liste des nœuds de surveillance. Lorsque le nombre de nœuds surveillés augmente, le fichier de configuration doit être modifié à chaque fois qu'un nœud est ajouté. ce qui est très gênant pour le moment. Cela doit être résolu via le mécanisme de découverte de services (SD).
Prometheus prend en charge une variété de mécanismes de découverte de services et peut obtenir automatiquement les cibles à collecter. Vous pouvez vous référer ici aux mécanismes de découverte de services inclus : azure, consul, dns, ec2, openstack, file, gce, kubernetes, marathon, triton, zookeeper (nerf, serveret), pour les méthodes de configuration, veuillez vous référer à la page Configuration du manuel. On peut dire que le mécanisme SD est très riche, mais actuellement, en raison de ressources de développement limitées, de nouveaux mécanismes SD ne sont plus développés et seuls les mécanismes SD basés sur des fichiers sont conservés. Suivez la communauté chinoise Linux
Il existe de nombreux tutoriels sur la découverte de services sur Internet, comme cet article du blog officiel de Prometheus Advanced Service Discovery in Prometheus 0.14.0, qui présente une introduction relativement systématique et complète à ce sujet. explique la configuration du réétiquetage. Et comment utiliser DNS-SRV, Consul et les fichiers pour la découverte de services.
De plus, le site officiel fournit également un exemple d'introduction à la découverte de services basée sur des fichiers. Le didacticiel d'introduction à l'atelier Prometheus écrit par Julius Volz utilise également DNS-SRV pour la découverte de services.
Peu importe la configuration de Prometheus ou celle d'Alertmanager, il n'y a pas d'API que nous puissions modifier dynamiquement. Un scénario très courant est que nous devons créer un système d'alarme avec des règles personnalisables basées sur Prometheus. Les utilisateurs peuvent créer, modifier ou supprimer des règles d'alarme sur la page en fonction de leurs propres besoins, ou modifier la méthode de notification d'alarme et la personne de contact, comme dans. Question de cet utilisateur dans Prometheus Google Groups : Comment ajouter dynamiquement des règles d'alerte dans le fichier Rules.conf et Prometheus YML via l'API ou quelque chose du genre ?
Malheureusement, Simon Pasquier a déclaré ci-dessous qu'il n'existe actuellement aucune API de ce type et qu'il n'est pas prévu de développer une telle API à l'avenir, car ces fonctions devraient être confiées à des outils tels que Puppet, Chef, Ansible et Salt. . Un tel système de gestion de configuration.
Pushgateway est principalement utilisé pour collecter certains emplois à court terme, étant donné que ces emplois existent pour une courte période, ils peuvent disparaître avant que Prometheus ne vienne à Pull. Le responsable a une bonne explication sur quand utiliser Pushgateway.
Prometheus s'est développé très rapidement au cours des deux dernières années, la communauté est également très active et de plus en plus de personnes en Chine étudient Prometheus. Avec la popularisation de concepts tels que les microservices, DevOps, le cloud computing et le cloud natif, de plus en plus d'entreprises commencent à utiliser Docker et Kubernetes pour créer leurs propres systèmes et applications. Les anciens systèmes de surveillance comme Nagios et Cacti deviendront de plus en plus populaires. Moins il est applicable, je pense que Prometheus finira par devenir un système de surveillance le plus adapté aux environnements cloud.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!