PHP中文网2017-04-17 14:29:26
str.find()
はすべて使用可能です一般的な Web ページの場合は、上記の 2 点だけで十分です。Ajax リクエストを含む Web サイトでは、必要なコンテンツをクロールできない場合があります。その API を見つけた方が便利かもしれません。
高洛峰2017-04-17 14:29:26
題名に使用できるスクレイピングスクリプトを投稿するだけです。目的は、Douban ID と現在公開されている映画のタイトルを取得することです。スクリプトは Beautifulsoup ライブラリに依存しており、インストールする必要があります。中国語のドキュメント
補足: 対象者がサイトをクロールしたり、指定したページのクロールをカスタマイズしたりできる実際のクローラー プログラムを構築したい場合は、scrapy を勉強することをお勧めします
Python サンプル コードを取得します:
リーリー巴扎黑2017-04-17 14:29:26
フレームワークを必要としない単純なものについては、request と beautifulsoup ライブラリを確認してください。Python 構文に慣れている場合は、これら 2 つを読めば、簡単なクローラーをほぼ作成できるようになります。
一般的に、企業はクローラーを使用しています。私が見た企業では主に Java または Python が使用されています。
PHP中文网2017-04-17 14:29:26
Python で簡単なクローラーを作成する方法に関する記事はインターネット上に確かにたくさんありますが、これらの記事のほとんどは例としてのみ見なすことができ、実際に適用できるものはまだほとんどありません。クローラーとは、コンテンツを取得し、分析し、保存することだと思います。初めての方は、Google で検索してみてください。より詳細な調査を行いたい場合は、Github でコードを探して確認してください。
私自身、Python については少ししか知りませんが、お役に立てれば幸いです。