Python - 2億++のURLを持つWebページのステータスコードを素早く確認するには?

Question

リクエストを使ってマルチスレッドを書いたのですが、少し遅い気がするのですが、他に方法はないでしょうか？

PHPz · Answer

Tornado の CURL クライアントサポートを使用して、リクエストヘッダーを読み取った後に接続を閉じます。 (私はまだ試していません。提供する HTTP クライアントが接続の途中で閉じることをサポートしていない場合は、TCP を使用し、http-parser を使用して私がやったように解析できます。)

実際には、fetchtitle に拡張機能を追加するだけでステータスコードを取得できます... (pycurl をインストールすることを忘れないでください)

巴扎黑 · Answer

Python は本質的に遅いので、高速にしたい場合は、TCP リクエストを直接書いて、ステータスを読んだ後、ソケットを閉じてください。

ringa_lee · Answer

grequests を使用すると、リクエストは同時にカプセル化されます

https://github.com/kennethrei...

迷茫 · Answer

この場合、gevent、tornado、scrapy-redis、asyncio の使用を検討できます。

大家讲道理 · Answer

Headを使用してリクエストすると早くなりますか?

Python - 2億++のURLを持つWebページのステータスコードを素早く確認するには?

全員に返信(5)返信します