可观测性是大部分中小公司比较头疼的问题,主要表现以下几个方面:
本文的主角其实也没有做大一统,目前阶段依然是不同的开源组件实现不同的功能,只不过N9e可以在同一个主面板查看它们,但是数据之间的联系依然没有实现。
那为什么还要学习研究N9e呢?
因为它正在向这方面发展。
上面提到 Grafana 其实已经在做了,基于 Grafana Loki Tempo Prometheus 组合可以实现监控、指标、链路的联动,N9e 和 Grafana 有什么不同呢?
用秦总的话说:Grafana更擅长监控面板的管理,N9e更擅长告警规则的管理。
N9e 可以将不同的告警规则发送到不同的业务组,不同的群体,避免在一个群里产生大量的告警信息,久而久之就上演了狼来了的故事。
说了这么多,N9e到底长啥样?
下面是我部署好的一套系统。
可以看到,在该面板上,我们可以实现:
这样就不用几个应用来回切了,方面快捷。
说一千到一万,架构不懂都白干。
现在我们来看看 N9e 的架构到底是什么样的,只有从架构逻辑上理清楚 N9e 是怎么玩的,不论是对部署还是维护都大有裨益。
N9e 主要有中心汇聚式部署方案以及边缘下沉式混杂部署方案,下面会分别做解释。
先上图:
这种方案就是建立一个 N9e 集群,其他 region 的监控数据都往这一个集群发送数据,这要求中心集群和其他 region 要有很好的网络连接。
对于中心集群来说,主要包括以下组件:
对于其他 Region,只需要部署 Categraf 即可,它会将本地的监控数据推送到中心集群。
这个架构的特点是简单,维护成本比较低。前提是要求机房之间的网络链路要比较好,如果网络不好就要用下面的方案了。
这种架构是对中心式部署方案的补充,主要是针对网络不好的情况:
边缘机房,下沉部署时序库、告警引擎、转发网关的时候,要注意,告警引擎需要依赖数据库,因为要同步告警规则,转发网关也要依赖数据库,因为要注册对象到数据库里去,需要打通相关网络。
!! PS:对于这种方案,本身网络不好,还要打通网络,可能还是会受网络问题影响。
为什么这里要选择单机部署呢?
其实我是想挨着部署各个组件,这样对于理解整个 N9e 的运行模式有一定的帮助。
!! Tips:我这里使用的是 Ubuntu 22.04.1 系统
!! Tips:为了快速我安装的是 Mariadb
# 更新镜像源 $ sudo apt-get update # 更新软件 $ sudo apt-get upgrade # 安装Mariabd $ sudo apt-get install mariadb-server-10.6
安装完成后会自动启动。然后为数据库设置一个用户密码。
# 连接数据库 $ sudo mysql # 设置权限和密码 > GRANT ALL PRIVILEGES ON *.* TO 'root'@'localhost' IDENTIFIED BY '1234'; >flush privileges;
# 更新镜像源 $ sudo apt-get update # 更新软件 $ sudo apt-get upgrade # 安装Redis $ sudo apt install redis-server
默认会自动启动。
N9e 的 TSDB 有多种选择:
这里我选择的是 VictoriaMetrics。
# 下载二进制包 $ wget https://github.com/VictoriaMetrics/VictoriaMetrics/releases/download/v1.90.0/victoria-metrics-linux-amd64-v1.90.0.tar.gz # 解压 $ tar xf victoria-metrics-linux-amd64-v1.90.0.tar.gz # 启动 $ nohup ./victoria-metrics-prod &>victoria.log &
观察8428是否启动。
# 下载最新版本的二进制包 $ wget https://github.com/ccfos/nightingale/releases/download/v6.0.0-ga.3/n9e-v6.0.0-ga.3-linux-amd64.tar.gz # 解压 $ mkdir n9e $ tar xf n9e-v6.0.0-ga.3-linux-amd64.tar.gz -C n9e/ # 检验目录如下 $ ll total 35332 drwxrwxr-x7 jokerbai jokerbai 40964月 12 14:05 ./ drwxr-xr-x4 jokerbai jokerbai 40964月 12 14:05 ../ drwxrwxr-x3 jokerbai jokerbai 40964月 12 14:05 cli/ drwxrwxr-x 10 jokerbai jokerbai 40964月 12 14:05 docker/ drwxrwxr-x4 jokerbai jokerbai 40964月 12 14:09 etc/ drwxrwxr-x 20 jokerbai jokerbai 40964月 12 14:05 integrations/ -rwxr-xr-x1 jokerbai jokerbai 252805124月6 19:05 n9e* -rwxr-xr-x1 jokerbai jokerbai 108380164月6 19:05 n9e-cli* -rw-r--r--1 jokerbai jokerbai297844月6 19:04 n9e.sql drwxrwxr-x6 jokerbai jokerbai 40964月 12 14:05 pub/
然后导入 N9e 的数据库。
# 导入数据库 $ mysql -uroot -p <n9e.sql
修改 N9e 的配置文件,在当前目录 etc/config.toml 文件中。
[[Pushgw.Writers]] # Url = "http://127.0.0.1:8480/insert/0/prometheus/api/v1/write" Url = "http://127.0.0.1:8428/api/v1/write"
然后启动 N9e 服务。
# 启动服务 $ nohup ./n9e &>n9e.log & # 检测17000端口是否启动 $ ss -ntl | grep 17000 LISTEN 04096 *:17000*:*
在浏览器输入http://127.0.0.1:17000,然后输入用户名root,密码root.2020即可登录系统。
Categraf 是一个监控采集 Agent,会将采集到的信息推送到 TSDB。
# 下载 $ wget https://download.flashcat.cloud/categraf-v0.2.38-linux-amd64.tar.gz # 解压 $ tar xf categraf-v0.2.38-linux-amd64.tar.gz # 进入目录 $ cd categraf-v0.2.38-linux-amd64/
修改配置文件,在 conf/config.toml 中,修改的部分如下:
[[writers]] url = "http://127.0.0.1:17000/prometheus/v1/write" [heartbeat] enable = true
然后启动 Categraf。
$ nohup ./categraf &>categraf.log &
然后就可以在主界面看到基础信息。
现在如果去查看时序数据指标,是查询不到的,因为没有添加数据源。
在系统配置->数据源处添加数据源,如下:
然后就能看到对应的指标数据了。
也可以通过内置的仪表盘查看主机的监控数据,如下:
这篇文章主要是带搭建对夜莺(Nightingale )有一个初步的印象,对它的整体架构做了简单的介绍,然后带大家从 0 到 1 安装了一遍,旨在让大家对夜莺的组件有一个清晰的认识。
目前夜莺已经更新迭代到 V6 版本,该版本有许多新的功能尝试,比如接入 ELK,接入 Jaeger 等,后续会持续对这个系列进行更新。
以上是【夜莺监控】初识夜莺,还是强!的详细内容。更多信息请关注PHP中文网其他相关文章!