Redis는 일반적으로 캐시, 계정 로그인 정보, 순위 등 비즈니스 시스템에서 중요한 구성 요소입니다.
Redis 요청 지연이 증가하면 비즈니스 시스템에 "사태"가 발생할 수 있습니다.
저는 중매형 인터넷 회사에 근무하고 있습니다. 더블일레븐 시절 주문하면 여자친구에게 선물을 주는 캠페인을 펼쳤습니다.
오전 12시 이후에 이용자가 급격하게 늘어나는데, 기술적 결함으로 인해 이용자가 주문을 할 수 없게 될 줄 누가 알았겠습니까!
검색 결과 Redis가 풀에서 리소스를 가져올 수 없습니다
라고 보고한 것을 발견했습니다. Could not get a resource from the pool
。
获取不到连接资源,并且集群中的单台 Redis 连接量很高。
大量的流量没了 Redis 的缓存响应,直接打到了 MySQL,最后数据库也宕机了……
于是各种更改最大连接数、连接等待数,虽然报错信息频率有所缓解,但还是持续报错。
后来经过线下测试,发现存放 Redis 中的字符数据很大,平均 1s 返回数据。
可以发现,一旦 Redis 延迟过高,会引发各种问题。
今天跟大家一起来分析下如何确定 Redis 有性能问题和解决方案。
最大延迟是客户端发出命令到客户端收到命令的响应的时间,正常情况下 Redis 处理的时间极短,在微秒级别。
当 Redis 出现性能波动的时候,比如达到几秒到十几秒,这个很明显我们可以认定 Redis 性能变慢了。
有的硬件配置比较高,当延迟 0.6ms,我们可能就认定变慢了。硬件比较差的可能 3 ms 我们才认为出现问题。
那我们该如何定义 Redis 真的变慢了呢?
所以,我们需要对当前环境的 Redis 基线性能做测量,也就是在一个系统在低压力、无干扰情况下的基本性能。
当你发现 Redis 运行时时的延迟是基线性能的 2 倍以上,就可以判定 Redis 性能变慢了。
延迟基线测量
redis-cli 命令提供了–intrinsic-latency 选项,用来监测和统计测试期间内的最大延迟(以毫秒为单位),这个延迟可以作为 Redis 的基线性能。
redis-cli --latency -h `host` -p `port`
比如执行如下指令:
redis-cli --intrinsic-latency 100 Max latency so far: 4 microseconds. Max latency so far: 18 microseconds. Max latency so far: 41 microseconds. Max latency so far: 57 microseconds. Max latency so far: 78 microseconds. Max latency so far: 170 microseconds. Max latency so far: 342 microseconds. Max latency so far: 3079 microseconds. 45026981 total runs (avg latency: 2.2209 microseconds / 2220.89 nanoseconds per run). Worst run took 1386x longer than the average latency.
注意:参数100是测试将执行的秒数。我们运行测试的时间越长,我们就越有可能发现延迟峰值。
通常运行 100 秒通常是合适的,足以发现延迟问题了,当然我们可以选择不同时间运行几次,避免误差。
运行的最大延迟是 3079 微秒,所以基线性能是 3079 (3 毫秒)微秒。
需要注意的是,我们要在 Redis 的服务端运行,而不是客户端。这样,可以避免网络对基线性能的影响。
可以通过 -h host -p port
Redis의 지연 시간이 너무 높으면 다양한 문제가 발생하는 것을 확인할 수 있습니다. 오늘은 Redis에 성능 문제가 있는지 판단하는 방법과 해결 방법을 분석해 보겠습니다. Redis 성능에 문제는 없나요?나중에 오프라인 테스트를 진행한 결과 Redis에 저장된 문자 데이터가 매우 크고 데이터를 반환하는 데 평균 1초가 걸리는 것으로 나타났습니다.
Redis의 성능이 변동하는 경우, 예를 들어 몇 초에서 10초 이상에 도달하면 Redis의 성능이 느려졌다고 결론을 내릴 수 있음은 자명합니다. 일부 하드웨어 구성은 상대적으로 지연 시간이 0.6ms일 때 느린 것으로 간주할 수 있습니다. 하드웨어가 열악한 경우 문제가 있다고 판단하는 데 3ms가 걸릴 수 있습니다.최대 지연은 클라이언트가 명령을 내리는 시점부터 명령에 대한 응답을 받는 클라이언트까지의 시간입니다. 일반적인 상황에서 Redis의 처리 시간은 마이크로초 수준으로 매우 짧습니다.
그러면 Redis가 정말 느린지 어떻게 정의할 수 있을까요?
대기 시간 기준 측정
redis-cli 명령은 테스트 기간 동안 최대 대기 시간(밀리초)을 모니터링하고 계산하는 –intrinsic-latency 옵션을 제공합니다. 이 대기 시간은 Redis의 기준 성능으로 사용될 수 있습니다.
redis-cli CONFIG SET slowlog-log-slower-than 6000예를 들어 다음 명령을 실행합니다.
127.0.0.1:6381> SLOWLOG get 2 1) 1) (integer) 6 2) (integer) 1458734263 3) (integer) 74372 4) 1) "hgetall" 2) "max.dsp.blacklist" 2) 1) (integer) 5 2) (integer) 1458734258 3) (integer) 5411075 4) 1) "keys" 2) "max.dsp.blacklist"
참고: 매개변수 100은 테스트가 실행되는 시간(초)입니다. 테스트를 오래 실행할수록 지연 시간 급증을 발견할 가능성이 높아집니다.
보통 100초 동안 실행하는 것이 적절하며, 이는 대기 시간 문제를 감지하기에 충분합니다. 물론 오류를 피하기 위해 서로 다른 시간에 여러 번 실행하도록 선택할 수도 있습니다.
실행 중인 최대 대기 시간은 3079마이크로초이므로 기본 성능은 3079(3밀리초)마이크로초입니다. 클라이언트가 아닌 Redis 서버에서 실행해야 한다는 점에 유의하세요. 이러한 방식으로 기본 성능에 대한 네트워크 영향을 피할 수 있습니다. 🎜🎜 -h 호스트 -p 포트
를 통해 서버에 연결할 수 있습니다. 네트워크가 Redis 성능에 미치는 영향을 모니터링하려면 Iperf를 사용하여 클라이언트에서 네트워크 지연을 측정할 수 있습니다. 서버. 🎜🎜네트워크 지연이 수백 밀리초에 도달하면 트래픽이 많은 다른 프로그램이 실행 중이어서 네트워크 정체가 발생할 수 있음을 의미할 수 있으므로 네트워크 트래픽 분산을 조정하려면 운영 및 유지 관리 담당자에게 문의해야 합니다. 🎜🎜느린 명령 모니터링🎜🎜🎜느린 명령인지 어떻게 판단하나요? 🎜🎜🎜연산 복잡도가 O(N)인지 확인하세요. 공식 문서에서는 가능한 한 O(1) 및 O(log N) 명령을 사용하여 각 명령의 복잡성을 소개합니다. 🎜🎜전체 집합 쿼리 HGETALL, SMEMBERS 및 집합 집계 작업(SORT, LREM, SUNION 등)과 같은 집합 작업과 관련된 복잡성은 일반적으로 O(N)입니다. 🎜🎜🎜관찰할 수 있는 모니터링 데이터가 있나요? 나는 코드를 작성하지 않았습니다. 누군가가 느린 명령을 사용했는지는 모르겠습니다. 🎜🎜🎜문제를 해결하는 방법에는 두 가지가 있습니다. 🎜🎜🎜🎜Redis 느린 로그 기능을 사용하여 느린 명령을 감지합니다. 🎜🎜🎜🎜latency-monitor(대기 시간 모니터링) 도구. 🎜🎜🎜🎜또한 Redis 메인 프로세스의 CPU 사용량을 직접(top, htop, prstat 등) 이용해 빠르게 확인할 수 있습니다. CPU 사용량은 높지만 트래픽이 낮은 경우 일반적으로 느린 명령이 사용되고 있음을 나타냅니다. 🎜🎜🎜느린 로그 기능🎜🎜🎜Redis의 Slowlog 명령을 사용하면 지정된 실행 시간을 초과하는 느린 명령을 빠르게 찾을 수 있습니다. 기본적으로 명령 실행 시간이 10ms를 초과하면 로그에 기록됩니다. 🎜🎜slowlog는 IO 왕복 작업과 네트워크 지연으로 인한 느린 응답을 제외하고 명령 실행 시간만 기록합니다. 🎜🎜기본 성능에 따라 느린 명령의 표준을 사용자 정의하고(기본 성능 최대 지연의 2배로 구성) 느린 명령 기록을 트리거하는 임계값을 조정할 수 있습니다. 🎜🎜redis-cli에 다음 명령을 입력하여 6밀리초 이상 녹화하도록 명령을 구성할 수 있습니다. 🎜CONFIG SET latency-monitor-threshold 9🎜Redis.config 구성 파일에서 마이크로초 단위로 설정할 수도 있습니다. 🎜
想要查看所有执行时间比较慢的命令,可以通过使用 Redis-cli 工具,输入 slowlog get 命令查看,返回结果的第三个字段以微秒位单位显示命令的执行时间。
假如只需要查看最后 2 个慢命令,输入 slowlog get 2 即可。
示例:获取最近2个慢查询命令
127.0.0.1:6381> SLOWLOG get 2 1) 1) (integer) 6 2) (integer) 1458734263 3) (integer) 74372 4) 1) "hgetall" 2) "max.dsp.blacklist" 2) 1) (integer) 5 2) (integer) 1458734258 3) (integer) 5411075 4) 1) "keys" 2) "max.dsp.blacklist"
以第一个 HGET 命令为例分析,每个 slowlog 实体共 4 个字段:
字段 1:1 个整数,表示这个 slowlog 出现的序号,server 启动后递增,当前为 6。
字段 2:表示查询执行时的 Unix 时间戳。
字段 3:表示查询执行微秒数,当前是 74372 微秒,约 74ms。
字段4表示查询命令及其参数,如果参数数量较多或较大,则只显示部分参数。hgetall max.dsp.blacklist是当前正在执行的命令。
Latency Monitoring
Redis 在 2.8.13 版本引入了 Latency Monitoring 功能,用于以秒为粒度监控各种事件的发生频率。
启用延迟监视器的第一步是设置延迟阈值(单位毫秒)。只有超过该阈值的时间才会被记录,比如我们根据基线性能(3ms)的 3 倍设置阈值为 9 ms。
可以用 redis-cli 设置也可以在 Redis.config 中设置;
CONFIG SET latency-monitor-threshold 9
工具记录的相关事件的详情可查看官方文档:https://redis.io/topics/latency-monitor
如获取最近的 latency
127.0.0.1:6379> debug sleep 2 OK (2.00s) 127.0.0.1:6379> latency latest 1) 1) "command" 2) (integer) 1645330616 3) (integer) 2003 4) (integer) 2003
事件的名称;
事件发生的最新延迟的 Unix 时间戳;
毫秒为单位的时间延迟;
该事件的最大延迟。
Redis 的数据读写由单线程执行,如果主线程执行的操作时间太长,就会导致主线程阻塞。
一起分析下都有哪些操作会阻塞主线程,我们又该如何解决?
网络通信导致的延迟
客户端使用 TCP/IP 连接或 Unix 域连接连接到 Redis。1 Gbit/s 网络的典型延迟约为 200 us。
redis 客户端执行一条命令分 4 个过程:
发送命令-〉 命令排队 -〉 命令执行-〉 返回结果
这个过程称为 Round trip time(简称 RTT, 往返时间),mget mset 有效节约了 RTT,但大部分命令(如 hgetall,并没有 mhgetall)不支持批量操作,需要消耗 N 次 RTT ,这个时候需要 pipeline 来解决这个问题。
Redis pipeline 将多个命令连接在一起来减少网络响应往返次数。
redis-pipeline
慢指令导致的延迟
根据上文的慢指令监控查询文档,查询到慢查询指令。可以通过以下两种方式解决:
在 Cluster 集群中,聚合运算等 O(N) 操作可以在 slave 节点上运行,也可以在客户端端完成。
使用高效的命令代替。采用增量迭代的方法查询数据,避免一次性查询大量数据,在此可参考SCAN、SSCAN、HSCAN和ZSCAN命令。
除此之外,生产中禁用KEYS 命令,它只适用于调试。因为它会遍历所有的键值对,所以操作延时高。
Fork 生成 RDB 导致的延迟
生成 RDB 快照,Redis 必须 fork 后台进程。fork 操作(在主线程中运行)本身会导致延迟。
Redis 使用操作系统的多进程写时复制技术 COW(Copy On Write) 来实现快照持久化,减少内存占用。
写时复制技术保证快照期间数据可修改
但 fork 会涉及到复制大量链接对象,一个 24 GB 的大型 Redis 实例需要 24 GB / 4 kB * 8 = 48 MB 的页表。
执行 bgsave 时,这将涉及分配和复制 48 MB 内存。
此外,从库加载 RDB 期间无法提供读写服务,所以主库的数据量大小控制在 2~4G 左右,让从库快速的加载完成。
内存大页(transparent huge pages)
常规的内存页是按照 4 KB 来分配,Linux 内核从 2.6.38 开始支持内存大页机制,该机制支持 2MB 大小的内存页分配。
Redis 使用了 fork 生成 RDB 做持久化提供了数据可靠性保证。
当生成 RDB 快照的过程中,Redis 采用**写时复制**技术使得主线程依然可以接收客户端的写请求。
也就是当数据被修改的时候,Redis 会复制一份这个数据,再进行修改。
采用了内存大页,生成 RDB 期间,即使客户端修改的数据只有 50B 的数据,Redis 需要复制 2MB 的大页。当写的指令比较多的时候就会导致大量的拷贝,导致性能变慢。
使用以下指令禁用 Linux 内存大页即可:
echo never > /sys/kernel/mm/transparent_hugepage/enabled
swap:操作系统分页
当物理内存(内存条)不够用的时候,将部分内存上的数据交换到 swap 空间上,以便让系统不会因内存不够用而导致 oom 或者更致命的情况出现。
当某进程向 OS 请求内存发现不足时,OS 会把内存中暂时不用的数据交换出去,放在 SWAP 分区中,这个过程称为 SWAP OUT。
当某进程又需要这些数据且 OS 发现还有空闲物理内存时,又会把 SWAP 分区中的数据交换回物理内存中,这个过程称为 SWAP IN。
内存 swap 是操作系统里将内存数据在内存和磁盘间来回换入和换出的机制,涉及到磁盘的读写。
触发 swap 的情况有哪些呢?
对于 Redis 而言,有两种常见的情况:
Redis 使用了比可用内存更多的内存;
与 Redis 在同一机器运行的其他进程在执行大量的文件读写 I/O 操作(包括生成大文件的 RDB 文件和 AOF 后台线程),文件读写占用内存,导致 Redis 获得的内存减少,触发了 swap。
我要如何排查是否因为 swap 导致的性能变慢呢?
Linux 提供了很好的工具来排查这个问题,所以当怀疑由于交换导致的延迟时,只需按照以下步骤排查。
获取 Redis 实例 pid
$ redis-cli info | grep process_id process_id:13160
进入此进程的 /proc 文件系统目录:
cd /proc/13160
在这里有一个 smaps 的文件,该文件描述了 Redis 进程的内存布局,运行以下指令,用 grep 查找所有文件中的 Swap 字段。
$ cat smaps | egrep '^(Swap|Size)' Size: 316 kB Swap: 0 kB Size: 4 kB Swap: 0 kB Size: 8 kB Swap: 0 kB Size: 40 kB Swap: 0 kB Size: 132 kB Swap: 0 kB Size: 720896 kB Swap: 12 kB
每行 Size 表示 Redis 实例所用的一块内存大小,和 Size 下方的 Swap 对应这块 Size 大小的内存区域有多少数据已经被换出到磁盘上了。
如果 Size == Swap 则说明数据被完全换出了。
可以看到有一个 720896 kB 的内存大小有 12 kb 被换出到了磁盘上(仅交换了 12 kB),这就没什么问题。
Redis 本身会使用很多大小不一的内存块,所以,你可以看到有很多 Size 行,有的很小,就是 4KB,而有的很大,例如 720896KB。不同内存块被换出到磁盘上的大小也不一样。
敲重点了
如果 Swap 一切都是 0 kb,或者零星的 4k ,那么一切正常。
当出现百 MB,甚至 GB 级别的 swap 大小时,就表明,此时,Redis 实例的内存压力很大,很有可能会变慢。
解决方案
增加机器内存;
将 Redis 放在单独的机器上运行,避免在同一机器上运行需要大量内存的进程,从而满足 Redis 的内存需求;
增加 Cluster 集群的数量分担数据量,减少每个实例所需的内存。
AOF 和磁盘 I/O 导致的延迟
为了保证数据可靠性,Redis 使用 AOF 和 RDB 快照实现快速恢复和持久化。
可以使用 appendfsync 配置将 AOF 配置为以三种不同的方式在磁盘上执行 write 或者 fsync (可以在运行时使用 CONFIG SET命令修改此设置,比如:redis-cli CONFIG SET appendfsync no)。
no:Redis 不执行 fsync,唯一的延迟来自于 write 调用,write 只需要把日志记录写到内核缓冲区就可以返回。
everysec:Redis 每秒执行一次 fsync。使用后台子线程异步完成 fsync 操作。最多丢失 1s 的数据。
always:每次写入操作都会执行 fsync,然后用 OK 代码回复客户端(实际上 Redis 会尝试将同时执行的许多命令聚集到单个 fsync 中),没有数据丢失。建议使用能够快速执行 fsync 并搭配快速的磁盘的文件系统实现,因为在这种模式下性能通常非常低。
我们通常将 Redis 用于缓存,数据丢失完全恶意从数据获取,并不需要很高的数据可靠性,建议设置成 no 或者 everysec。
除此之外,避免 AOF 文件过大, Redis 会进行 AOF 重写,生成缩小的 AOF 文件。
可以把配置项 no-appendfsync-on-rewrite设置为 yes,表示在 AOF 重写时,不进行 fsync 操作。
也就是说,Redis 实例把写命令写到内存后,不调用后台线程进行 fsync 操作,就直接返回了。
expires 淘汰过期数据
Redis 有两种方式淘汰过期数据:
惰性删除:当接收请求的时候发现 key 已经过期,才执行删除;
定时删除:每 100 毫秒删除一些过期的 key。
定时删除的算法如下:
随机采样 ACTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP个数的 key,删除所有过期的 key;
如果发现还有超过 25% 的 key 已过期,则执行步骤一。
ACTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP默认设置为 20,每秒执行 10 次,删除 200 个 key 问题不大。
두 번째 항목이 트리거되면 Redis는 만료된 데이터를 지속적으로 삭제하여 메모리를 확보하게 됩니다. 그리고 삭제가 차단됩니다.
발동 조건은 무엇인가요?
즉, 많은 수의 키가 동일한 시간 매개변수를 설정합니다. 만료된 키 수를 25% 미만으로 줄이려면 여러 번의 중복 제거가 필요합니다. 이러한 키는 같은 초 내에 대량으로 만료됩니다.
간단히 말하면, 동시에 만료되는 많은 수의 키로 인해 성능 변동이 발생할 수 있습니다.
해결책
키 배치가 동시에 만료되는 경우 EXPIREAT 및 EXPIRE의 만료 시간 매개변수에 특정 크기 범위 내의 임의의 숫자를 추가하여 키가 일정 기간 내에 있도록 할 수 있습니다. 가까운 시간 범위를 파일 내에서 삭제하는 동시에 만료로 인한 압력을 피하십시오.
bigkey
일반적으로 큰 데이터나 많은 수의 구성원 또는 목록을 포함하는 키를 큰 키라고 부릅니다. 아래에서는 몇 가지 실제 예를 사용하여 큰 키의 특성을 설명합니다.
A STRING 유형 키 , 값이 5MB(데이터가 너무 큼)
LIST 유형 키, 목록 개수가 10,000개(목록 개수가 너무 많음)
ZSET 유형 키, 구성원이 10,000개(너무 많음) 멤버수가 많음)
HASH 형식의 키입니다. 멤버 수는 1,000명에 불과하지만 이들 멤버의 총 값 크기는 10MB입니다(멤버 크기가 너무 큽니다)
bigkey로 인해 발생하는 문제는 다음과 같습니다.
Redis 메모리가 계속 증가하여 OOM이 발생하거나 maxmemory 설정 값에 도달하여 쓰기 차단 또는 중요한 키 제거가 발생합니다.
Redis 클러스터에 있는 특정 노드의 메모리가 다른 노드의 메모리를 훨씬 초과합니다. . 그러나 Redis 클러스터에서 데이터 마이그레이션의 최소 단위는 Key이므로 노드의 메모리 균형을 맞출 수 없습니다.
bigkey의 읽기 요청은 너무 많은 대역폭을 차지하고 속도가 느려지며 서버의 다른 서비스에 영향을 미칩니다.
bigkey 찾기
redis-rdb-tools 도구를 사용하여 맞춤형 방식으로 큰 열쇠.솔루션
큰 키 분할예를 들어 수만 개의 멤버가 포함된 HASH 키를 여러 HASH 키로 분할하고 Redis 클러스터에서 각 키의 멤버 수가 합리적인 범위 내에 있는지 확인합니다. 구조에서 큰 키의 분할은 노드 간의 메모리 균형에 중요한 역할을 할 수 있습니다. 큰 키의 비동기 정리Redis는 4.0부터 UNLINK 명령을 제공했습니다. 이 명령은 들어오는 키를 비차단 방식으로 천천히 그리고 점진적으로 정리할 수 있습니다. UNLINK를 통해 큰 키나 초대형 키까지 안전하게 삭제할 수 있습니다.위 내용은 Redis에 성능 문제가 있는지 확인하고 해결하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!