ホームページ >バックエンド開発 >Python チュートリアル >Python クローラーとタコではどちらが速いですか?

Python クローラーとタコではどちらが速いですか?

(*-*)浩オリジナル: 2019-06-15 15:10:069094ブラウズ

Octopus には、学習コストが低い、視覚的なプロセス、収集システムの迅速な構築などの利点があります。 Excelファイルを直接エクスポートしたり、データベースにエクスポートしたりできます。収集コストを削減するために、クラウド収集には 10 ノードが用意されており、これにより多くの手間も省けます。

Octopus Collector はクラウド収集サービスも提供しており、短時間で完了できます。数日かかる場合があります。ワークロードを収集します。 (推奨される学習: Python ビデオチュートリアル )

悪い点は、非常にシンプルに見え、より確実なスマートモードがあるにもかかわらず、中に落とし穴があることです。たくさん使った人にしか分からないでしょう。

まず、ループ内のループはすべて xpath 要素の位置決めです。単純なクリック位置決めを使用すると、非常に厳密になり、大きなバッチでページを収集するときに間違いが発生しやすくなります。また、その利便性からこのツールを使用する初心者が多すぎる、よくある質問が一日中続く、ページ構造が分からない、xpathが理解できない、収集不完全などの問題が発生しやすいそして無限のページめくり。

しかし、Octopus Collector の ajax 読み込み、携帯電話ページのシミュレート、広告のフィルタリング、ページの下部へのスクロール、その他の機能は素晴らしいツールであり、1 回のチェックで実行できます。コードを書くのは非常に面倒ですし、これらの機能を実装するのも大変です。

Octopus は結局のところ単なるツールであり、その自由度は間違いなくプログラミングを打ち負かします。利点は、利便性、スピード、低コストです。

タコの判断の引用は弱く、複雑な判断を下したり、複雑なロジックを実行したりすることはできません。また、認証コードの問題を解決できるのはエンタープライズ版の Octopus だけであり、一般版はコーディングプラットフォームにアクセスできません。

もう 1 つの点は、OCR 機能がないことです。58.com と Ganji.com が収集した電話番号はすべて画像形式です。Python は、オープンソースの画像認識ライブラリを使用することで解決できます。接続されて認識されるようになります。

データ収集のニーズによって、最終的にどのツールが使用されるかが決まります。大量のデータ収集が必要な場合、コードの自由度が高いため、クローラーの使用は避けられません。 Octopus の目標は Python を置き換えることではなく、誰もが使用できるコレクターという目標を達成することだと思います。

もう 1 つのポイントは、Python は学習しやすく、デプロイしやすく、オープンソースで無料であるということです。 Scrapy を学習するだけでも、いくつかの問題は解決できますが、問題は、ツールによっては、単純な選択で実現できる一部の機能を自分で書くか、他の人のコードをコピーする必要があることです。タイムクローラーライターさん、すぐに解決できるでしょう。始めてから諦めたいところです...

Python 関連の技術記事の詳細については、Python チュートリアル# をご覧ください。 ## 学べるコラム!

以上がPython クローラーとタコではどちらが速いですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Python がサポートしていないデータ型は何ですか?次の記事：Python がサポートしていないデータ型は何ですか?

続きを見る