node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

Question

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务...

伊谢尔伦 · Answer

Saya tidak tahu banyak tentang perangkak Python, tetapi secara amnya Scrapy digunakan untuk membuat perangkak itu berdasarkan rangka kerja tak segerak berpintal.

Berbilang proses boleh menggunakan sepenuhnya berbilang teras Pada masa ini, yang ideal ialah berbilang proses + coroutine.

Oleh kerana kaedah segerak masih digunakan dalam permintaan, ia akan menyekat benang Dalam kes ini, tidak ada gunanya menggunakan asynchronous Anda boleh memahaminya sebagai menggunakan kaedah time.sleep dan bukannya kaedah asyncio.sleep in asyncio.

伊谢尔伦 · Answer

Lihat artikel ini: http://aosabook.org/en/500L/a...

PHP中文网 · Answer

asyncio menerima pakai idea coroutine, iaitu memproses berbilang tugas tak segerak dalam satu urutan. Apakah tugas tak segerak, seperti Masa, IO Tak segerak, dsb.

Tetapi bagaimana jika tugas itu tidak menyokong tak segerak?

Contohnya, membaca dan menulis menyekat IO, atau melakukan pengiraan yang memakan masa yang banyak. Coroutine akan menyelesaikan masalah penyekatan tugas, dan kelebihan berbilang proses dan berbilang benang akan ditunjukkan.

Senario penggunaan kedua-duanya adalah berbeza. Senario berbeza, rancangan berbeza.

PHP中文网 · Answer

asyncio memerlukan sokongan pustaka pihak ketiga yang berkaitan, jadi pada asasnya semua perpustakaan pihak ketiga perlu ditulis secara berasingan, seperti port bersiri, protokol rangkaian, termasuk permintaan dan http Dalam kes buruk, selepas ini, Dalam dua versi , banyak perpustakaan yang digunakan tidak segerak. Termasuk permintaan.

PHPz · Answer

asyncio memerlukan API tak segerak untuk menyokongnya (API tidak menyekat segerak juga tersedia, tetapi Python tidak mempunyai perkara sedemikian setInterval dan anda mungkin perlu menggodamnya).

Jika ia adalah API penyekat segerak, jika satu panggilan balik tersekat, panggilan balik lain tidak boleh dilaksanakan. Anda boleh lihat API IO yang anda lihat setakat ini pada dasarnya menyekat.

黄舟 · Answer

Python multi-threading tidak praktikal kerana kewujudan GIL, tetapi multi-process masih sangat berguna

node.js - Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？

代码

补充

membalas semua(6)saya akan balas