当前位置：首页 > 问答 > 正文

Redis连接老是超时咋整，超时原因和解决办法全解析

Redis连接超时是个让人头疼的问题,尤其是在用户量上来或者业务高峰期的时候，搞不好就会导致服务卡顿甚至报错，别急，咱们一步步来盘一盘它为啥会超时，以及怎么对付它，这里面的原因主要可以归结为四大方面：网络问题、Redis服务器自身问题、客户端配置问题以及资源竞争问题。

第一，先看看是不是网络出了幺蛾子。

网络是连接客户端和Redis服务器的桥梁,桥要是不稳，啥车都过不去，最常见的就是网络延迟太高或者干脆丢包了，你可以想象一下，客户端给Redis服务器发了个请求，就像寄出一封信，如果路上堵车（高延迟）或者信丢了（丢包），客户端等了好久没回音，就会认为超时了。

怎么排查？ 用一些基本的网络命令就能初步判断，在运行客户端的机器上，持续 ping 一下Redis服务器的IP地址，看看返回的时间（延迟）是否稳定，有没有丢包的情况（显示 请求超时 或 timeout），如果延迟动不动就几百毫秒甚至丢包，那很可能是网络链路的问题，这时候就需要联系运维同事检查交换机、路由器、防火墙这些网络设备了。
另一个网络相关点：连接池配置。 很多时候我们用的不是单个连接，而是连接池，如果连接池里的连接因为网络波动变得“不健康”了，但客户端没及时发现，还把这个坏连接拿去用，那肯定超时，好的连接池应该有检测机制，定期检查连接是否还有效（比如发个 PING 命令），无效的就扔掉换新的。

第二，Redis服务器自己是不是“压力山大”？

如果网络是通畅的,那就要看看Redis服务器本身是不是忙不过来了，Redis是单线程处理命令的，如果一个命令执行时间特别长，就会堵住后面所有命令，导致客户端等待超时。

Redis连接老是超时咋整，超时原因和解决办法全解析

排查CPU和内存使用率： 登录到Redis服务器上，用 top 或 htop 命令看看CPU使用率是不是长时间100%（尤其是单个核心），再用 info memory 命令看看内存使用情况，是不是快满了，内存不足会导致操作系统开始使用交换分区（swap），磁盘速度比内存慢成千上万倍，Redis性能会急剧下降，自然容易超时。
警惕慢查询： 这是非常常见的原因，有些命令本身就很慢，比如用 keys * 模式匹配大量键，或者对一个包含几百万个元素的集合执行 smembers 操作，你可以通过Redis的慢查询日志（slowlog）来抓取这些“罪魁祸首”，用 SLOWLOG GET 10 命令可以查看最近10条执行时间较长的命令，找到这些慢命令后，就要考虑优化了，比如用 scan 系列命令替代 keys，或者把大对象拆小。
持久化操作的影响： 如果配置了RDB持久化，在生成快照（尤其是save命令触发的）时，Redis会fork一个子进程，如果数据量很大，fork过程可能会阻塞主线程一段时间，导致期间所有命令延迟增高，AOF持久化在配置为 always 策略时，每个写命令都刷盘，如果磁盘IO慢，也会拖累整体性能，可以考虑调整持久化策略，比如RDB用 bgsave，AOF用 everysec。

第三，客户端的“姿势”对不对？

有时候问题不出在服务器和网络,而是客户端配置或使用方式不当。

Redis连接老是超时咋整，超时原因和解决办法全解析

连接超时时间设置不合理： 客户端连接Redis时，一般都会设置一个连接超时（connection timeout）和读写超时（socket timeout）时间，如果这个值设得太短，比如只有100毫秒，在网络稍有波动或者Redis稍微有点忙的时候，就可能因为来不及响应而超时，可以根据实际情况适当调大这个超时时间，比如设为几秒，但也不能无限制地大，否则线程可能会被长时间挂起。
客户端资源耗尽： 检查一下客户端机器，是不是本身CPU或内存就满了，导致它没有足够的资源及时处理Redis的返回结果，或者客户端的连接池设置太小，在高并发下所有连接都被占用了，新的请求只能等待，等着等着就超时了。

第四，有没有“抢资源”的情况？

当多个客户端或者多个应用同时访问同一个Redis实例时,可能会相互影响。

大Key被频繁访问： 如果一个很大的Key（比如一个存储了几万条数据的Hash）被多个客户端同时读写，即使每个操作本身不慢，但竞争也会导致延迟增加。
不恰当的使用方式： 比如在Redis上执行大量的 hlen, scard 这种查询集合大小的命令，虽然单个命令快，但每秒执行几十万次，也会消耗可观的CPU资源。

总结一下排查思路：

从简到繁： 先 ping 一下，看网络通不通，延迟高不高。
查看服务器状态： 用 redis-cli 连上服务器，运行 info 命令整体看下状态，特别是 connected_clients（连接数）、used_memory（内存）、instantaneous_ops_per_sec（每秒操作数）和 cpu 使用情况。
检查慢查询： 运行 SLOWLOG GET，看看有没有明显很慢的命令。
回顾客户端： 检查客户端的超时设置和连接池配置是否合理，客户端所在机器资源是否充足。
考虑整体架构： 如果数据量巨大或并发极高，是否需要进行分片（Sharding）来分散压力，比如使用Redis Cluster。