node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

Question

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务...

伊谢尔伦 · Answer

Je ne connais pas grand chose aux robots Python, mais généralement Scrapy est utilisé pour créer des robots. Il est basé sur le framework asynchrone torsadé.

Plusieurs processus peuvent utiliser pleinement plusieurs cœurs.À l'heure actuelle, l'idéal est multi-processus + coroutine.

Étant donné que la méthode synchrone est toujours utilisée dans les requêtes, elle bloquera le thread. Dans ce cas, cela ne sert à rien d'utiliser la méthode asynchrone. Vous pouvez la comprendre comme utilisant la méthode time.sleep au lieu de la méthode asyncio.sleep. asyncio.

伊谢尔伦 · Answer

Consultez cet article : http://aosabook.org/en/500L/a...

PHP中文网 · Answer

asyncio adopte l'idée de coroutine, qui consiste à traiter plusieurs tâches asynchrones dans un seul thread. Quelles sont les tâches asynchrones, telles que Timing, Asynchronous IO, etc.

Mais que se passe-t-il si la tâche ne prend pas en charge l'asynchrone ?

Par exemple, lire et écrire un IO bloquant, ou effectuer un chronophage grande quantité de calculs. Coroutine résoudra le problème du blocage des tâches et les avantages du multi-processus et du multi-thread seront reflétés.

Les scénarios d'utilisation des deux sont différents. Différents scénarios, différents plans.

PHP中文网 · Answer

asyncio nécessite la prise en charge de bibliothèques tierces associées, donc fondamentalement, toutes les bibliothèques tierces doivent être écrites séparément, comme les ports série, les protocoles réseau, y compris les requêtes et http. Ce n'est pas bon, mais dans les bons cas, après. ceci Dans les deux versions, de nombreuses bibliothèques utilisées ont été asynchrones. Comprend les demandes.

PHPz · Answer

asyncio nécessite une API asynchrone pour le prendre en charge (une API synchrone non bloquante est également disponible, mais Python n'a pas une telle chose setInterval, et vous devrez peut-être la pirater).

S'il s'agit d'une API de blocage synchrone, si un rappel est bloqué, les autres rappels ne peuvent pas être exécutés. Vous pouvez y jeter un œil. Les API IO que vous avez vues jusqu'à présent bloquent essentiellement.

黄舟 · Answer

Le multi-threading Python n'est pas pratique du fait de l'existence de GIL, mais le multi-processus reste quand même très utile

node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

代码

补充

répondre à tous(6)je répondrai