ホームページ >データベース >mysql チュートリアル >负载均衡与黑名单
黑名单 访问一个Server经常出错就可以断定:该Server有问题,下次访问还是极可能出错。为了减少试错成本,可以把它放到黑名单中,下次请求Server的时候避开这个有问题的Server。实现黑名单,需要注意以下方面: 1. 错误分类:一个Server出错可能有很多种原因
黑名单
访问一个Server经常出错就可以断定:该Server“有问题”,下次访问还是极可能出错。为了减少试错成本,可以把它放到黑名单中,下次请求Server的时候避开这个有问题的Server。实现黑名单,需要注意以下方面:
1. 错误分类:一个Server出错可能有很多种原因,一个Tablet出问题,整个Server出问题,网络出问题,一个大查询超时等等。这些问题需要予以适当分类,不同情况要用不同黑法。
2. 黑名单洗白:在一定条件下黑名单需要被洗白。例如:黑名单超时;Server列表更新;没有可服务的Server了,强制洗白。
负载均衡
在分布式系统中为了让平均响应时间最低、系统吞吐量最大,需要把外部请求均衡的发送到各个服务器。最简单的均衡算法是Round-Robin(轮转算法),该算法的特点简单来说就是:谁都别急,都有份,一个个来。该算法虽然简单,但十分实用。绝大多数情况都可以采用Round-Robin算法,实现简单,性能还稳定。但该算法有一个缺点:它假设了每个请求消耗的资源是相等的,而实际应用中不同请求对资源的需求是不同的。例如:同样是范围扫描(Scan)请求,有些请求只需要扫描几条数据,有些请求需要扫描上万条数据。OceanBase中的Scan请求就符合这样的特征,因此不能简单的使用Round-Robin,需要一种对load-aware的算法。
如果事先知道每个Scan要扫描多少条数据,显然可以采用一种带权值的Round-Robin算法。但在OceanBase中Scan多少条数据是不能预先知道的,所以采用了一种更直接的方式:记录下每一个Server处理请求消耗的时间。 Scan的记录条数多,消耗时间也多,记录数少,消耗的时间就少。每次选择目标Server的时候就看谁过去消耗的时间最少。该算法可以保证每个Server的负载基本相同。该算法也有一个缺陷:它依赖于历史数据。假设这期间有一个Server下线或者被加入了黑名单,那么它会欠下很多时间债,下次上线的时候请求都会涌入到该Server,直到时间债务清偿。一种解决方案是:每次Server上线时都把自己的流量设置成系统的平均值。但在工程实现上可能会遇到不少麻烦:(1)如何定义Server上线动作?比如,Server被加入到了一个分布式的黑名单中 (2) 如果流量记录是分布式的呢?比如,为了性能考虑,各个线程都各自维护了自己的历史记录。 以上都是OceanBase遇到的现实问题。
【附】Ramdon随机算法:从统计的角度看,该算法本质也是Round-Robin算法。
以上是OceanBase中目前遇到的一个小困境,考虑下,看看有没有一个折中方案解决CS上线后流量涌入的问题。