node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

Question

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务...

伊谢尔伦 · Answer

对Python爬虫的了解的不多,但是一般做爬虫不是用Scrapy的吗.那个本身就是基于twisted异步框架的.

多进程可以充分利用多核,目前来说理想的是多进程+协程.

因为requests中还是使用同步的方法,所以会阻塞线程,这样的话用异步也没有意义了.你可以理解成在asyncio中使用time.sleep方法而不是asyncio.sleep方法.

伊谢尔伦 · Answer

看看这篇文章: http://aosabook.org/en/500L/a...

PHP中文网 · Answer

asyncio采用的是协程的思想，就是在一个线程中处理多个异步任务。异步任务有那些呢，比如定时，异步IO等等。

但是如果任务不支持异步呢？

比如读写一个阻塞IO，或者进项耗时的大量的计算。协程就会任务阻塞问题，多进程多线程的优点就体现出来了。

两者的使用场景不一样。不同场景，不同方案。

PHP中文网 · Answer

asyncio需要相关的第三方的库支持，所以，基本上原来有的第三方库都需要单独写，如串口，网络协议，包括requests和http这些，不好，好的情况下，经过这两个版本的时间，很多用到的库都已经有了异步的了。包括requests.

PHPz · Answer

asyncio 需要异步的 API 来配套（同步非阻塞 API 也可以，但是 Python 没有setInterval这种东西，可能需要 Hack 一下）。

如果是同步阻塞的 API，一个回调卡了其它回调都不能执行。你可以看一看，你到目前见到的 IO API 基本都是阻塞的。

黄舟 · Answer

Python多线程由于GIL的存在并不实用，但多进程还是很有用的