基于redis乐观锁怎么实现并发排队-Redis-PHP中文网

首页

数据库

Redis

基于redis乐观锁怎么实现并发排队

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 am 09:58 AM

redis

有个需求场景是这样的，使用redis控制scrapy运行的数量。设置系统后台为4后，scrapy最多只能启动4个任务，多余的任务将被排队等待。

概况

最近做了一个django + scrapy + celery + redis 的爬虫系统，客户购买的主机除了跑其他程序外，还要跑我开发的这套程序，所以需要手动控制scrapy的实例数量，避免过多的爬虫给系统造成负担。

流程设计

1、爬虫任务由用户以请求的方式发起，所有的用户的请求统一进入到celery进行排队；
2、任务数量控制的执行就交给reids，经由celery保存到redis，包含了爬虫启动所需要的必要信息，从redis取一条信息即可启动一个爬虫；
3、通过scrapyd的接口来获取当前在运行的爬虫数量，以便决定下一步流程：如果小于4，则从redis中取相应数量的信息来启动爬虫，如果大于等于4，则继续等待；
4、如果在运行爬虫的数量有所减少，则及时从reids中取相应数量的信息来启动爬虫。

代码实现

业务代码有点复杂和啰嗦，此处使用伪代码来演示

import redis

# 实例化一个redis连接池
pool = redis.ConnectionPool(host=&#39;127.0.0.1&#39;, port=6379, decode_responses=True, db=4, password=&#39;&#39;)

r = redis.Redis(connection_pool=pool)
# 爬虫实例限制为4 即只允许4个scrapy实例在运行
limited = 4

# 声明redis的乐观锁
lock = r.Lock()

# lock.acquire中有while循环，即它会线程阻塞，直到当前线程获得redis的lock，才会继续往下执行代码
if lock.acquire():
	# 1、从reids中取一条爬虫信息
	info = redis.get() 
	
	# 2、while循环监听爬虫运行的数量
	while True:
		req = requests.get(&#39;http://127.0.0.1:6800/daemonstatus.json&#39;).json()
		# 统计当前有多少个爬虫在运行
		running = req.get(&#39;running&#39;) + req.get(&#39;pending&#39;)
		
		# 3、判断是否等待还是要增加爬虫数量
		# 3.1 如果在运行的数量大于等于设置到量 则继续等待
		if running >= limited:
			continue
		
		# 3.2 如果小于 则启动爬虫
		start_scrapy(info)
		# 3.3 将info从redis中删除
		redis.delete(info)
		# 3.4 释放锁
		lock.release()
		break

当前，这只是伪代码而已，实际的业务逻辑可能是非常复杂的，如：

@shared_task
def scrapy_control(key_uuid):

    r = redis.Redis(connection_pool=pool)
    db = MysqlDB()
    speed_limited = db.fetch_config(&#39;REPTILE_SPEED&#39;)
    speed_limited = int(speed_limited[0])

    keywords_num = MysqlDB().fetch_config(&#39;SEARCH_RANDOM&#39;)
    keywords_num = int(keywords_num[0])


    # while True:
    lock = r.lock(&#39;lock&#39;)
    with open(&#39;log/celery/info.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 进入处理环节&#39; +  &#39;\n&#39;)
    try:
        # acquire默认阻塞 如果获取不到锁时 会一直阻塞在这个函数的while循环中
        if lock.acquire():
            with open(&#39;log/celery/info.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 获得锁&#39; +  &#39;\n&#39;)
            # 1 从redis中获取信息
            redis_obj = json.loads(r.get(key_uuid))
            user_id = redis_obj.get(&#39;user_id&#39;)
            contents = redis_obj.get(&#39;contents&#39;)
            
            # 2 使用while循环处理核心逻辑          
            is_hold_print = True
            while True:
                req = requests.get(&#39;http://127.0.0.1:6800/daemonstatus.json&#39;).json()
                running = req.get(&#39;running&#39;) + req.get(&#39;pending&#39;)
                # 3 如果仍然有足够的爬虫在运行 则hold住redis锁，等待有空余的爬虫位置让出
                if running >= speed_limited:
                    if is_hold_print:
                        with open(&#39;log/celery/info.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 爬虫在运行，线程等待中&#39; +  &#39;\n&#39;)
                        is_hold_print = False
                    time.sleep(1)
                    continue
                
                # 4 有空余的爬虫位置 则往下走
                # 4.1 处理完所有的内容后 释放锁
                if len(contents) == 0:
                    r.delete(key_uuid)
                    with open(&#39;log/celery/info.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 任务已完成，从redis中删除&#39; +  &#39;\n&#39;)
                    lock.release()
                    with open(&#39;log/celery/info.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 释放锁&#39; +  &#39;\n&#39;)
                    break

                # 4.2 创建task任务
                task_uuid = str(uuid.uuid4())
                article_obj = contents.pop()
                article_id = article_obj.get(&#39;article_id&#39;)
                article = article_obj.get(&#39;content&#39;)
                try:
                    Task.objects.create(
                        task_uuid = task_uuid,
                        user_id = user_id,
                        article_id = article_id,
                        content = article
                    )
                except Exception as e:
                    with open(&#39;log/celery/error.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39;->&#39; + str(task_uuid) + &#39; 创建Task出错: &#39; + str(e) +  &#39;\n&#39;)
                # finally:
                # 4.3 启动爬虫任务 即便创建task失败也会启动
                try:
                    task_chain(user_id, article, task_uuid, keywords_num)
                except Exception as e:
                    with open(&#39;log/celery/error.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 启动任务链失败: &#39; + str(e) +  &#39;\n&#39;)
                
                # 加入sleep 防止代码执行速度快于爬虫启动速度而导致当前线程启动额外的爬虫
                time.sleep(5)

    except Exception as e:
        with open(&#39;log/celery/error.log&#39;, &#39;a&#39;) as f: f.write(str(datetime.datetime.now()) + &#39;--&#39; + str(key_uuid) + &#39; 获得锁之后的操作出错: &#39; + str(e) +  &#39;\n&#39;)
        lock.release()

小坑
scrapy启动速度相对较慢，所以while循环中，代码中执行到了爬虫的启动，需要sleep一下再去通过scrapyd接口获取爬虫运行的数量，如果立刻读取，可能会造成误判。

以上是基于redis乐观锁怎么实现并发排队的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：亿速云。如有侵权，请联系admin@php.cn删除

REDIS：揭示其目的和关键应用程序May 03, 2025 am 12:11 AM

Redisisanopen-Source，内存内部的库雷斯塔氏菌，卡赫和梅斯吉级，excellingInsPeedAndVersatory.itiswidelysusedforcaching，Real-Timeanalytics，Session Management，Session Managements，and sessighterboarderboarderboardobboardotoitsssupportfortfortfortfortfortfortfortfortorvortfortfortfortfortfortforvortfortforvortforvortforvortfortforvortforvortforvortforvortdatastherctuct anddatataCcessandcessanddataaCces

REDIS：键值数据存储的指南May 02, 2025 am 12:10 AM

Redis是一个开源的内存数据结构存储，用作数据库、缓存和消息代理，适合需要快速响应和高并发的场景。1.Redis使用内存存储数据，提供微秒级的读写速度。2.它支持多种数据结构，如字符串、列表、集合等。3.Redis通过RDB和AOF机制实现数据持久化。4.使用单线程模型和多路复用技术高效处理请求。5.性能优化策略包括LRU算法和集群模式。

REDIS：缓存，会话管理等May 01, 2025 am 12:03 AM

Redis的功能主要包括缓存、会话管理和其他功能：1）缓存功能通过内存存储数据，提高读取速度，适用于电商网站等高频访问场景；2）会话管理功能在分布式系统中共享会话数据，并通过过期时间机制自动清理；3）其他功能如发布-订阅模式、分布式锁和计数器，适用于实时消息推送和多线程系统等场景。

REDIS：探索其核心功能和好处Apr 30, 2025 am 12:22 AM

Redis的核心功能包括内存存储和持久化机制。1)内存存储提供极快的读写速度，适用于高性能应用。2)持久化通过RDB和AOF两种方式确保数据不丢失，选择依据应用需求。

REDIS的服务器端操作：它提供的Apr 29, 2025 am 12:21 AM

Redis'sserver-sedierations offerfunctions andTriggersForexeCutingCompleXoperationsontheserver.1）函数函数sallowCoustomoperationsinlua，javascript，javascript，orredis'sscriptinglanguage，增强效率和维护。2）

REDIS：数据库还是服务器？揭开角色的神秘面纱Apr 28, 2025 am 12:06 AM

redisisbothadatabaseandaserver.1）asadatabase，ituseSin-memorystorageforfastaccess，ifealforreal-timeapplications andCaching.2）Asaserver，ItsupportsPub/submessagingAndluAsessingandluAsessingandluascriptingftingftingftingftingftingftingftingfinteral-timecommunicationandserverserverserverserverserverserverserver-soperations。