検索

ホームページ  >  に質問  >  本文

python菜鸟 想做一个简单的爬虫 求教程

python菜鸟 想做一个简单的爬虫 求教程 ps:一般公司做爬虫采集的话常用什么语言

PHP中文网PHP中文网2808日前1383

全員に返信(21)返信します

  • PHP中文网

    PHP中文网2017-04-17 14:29:26

    • クロールコンテンツ、通常は HTTP リクエスト、リクエスト 1
    • クロールダウンした Web ページでは、必要な情報を取得するために文字列処理が行われます。 beautifulsoup、正規表現、str.find() はすべて使用可能です

    一般的な Web ページの場合は、上記の 2 点だけで十分です。Ajax リクエストを含む Web サイトでは、必要なコンテンツをクロールできない場合があります。その API を見つけた方が便利かもしれません。

    返事
    0
  • 高洛峰

    高洛峰2017-04-17 14:29:26

    私が過去に勉強していたときにまとめたチュートリアル:

    Python クローラー チュートリアル

    返事
    0
  • 高洛峰

    高洛峰2017-04-17 14:29:26

    題名に使用できるスクレイピングスクリプトを投稿するだけです。目的は、Douban ID と現在公開されている映画のタイトルを取得することです。スクリプトは Beautifulsoup ライブラリに依存しており、インストールする必要があります。中国語のドキュメント

    補足: 対象者がサイトをクロールしたり、指定したページのクロールをカスタマイズしたりできる実際のクローラー プログラムを構築したい場合は、scrapy を勉強することをお勧めします

    Python サンプル コードを取得します:

    リーリー

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-17 14:29:26

    フレームワークを必要としない単純なものについては、request と beautifulsoup ライブラリを確認してください。Python 構文に慣れている場合は、これら 2 つを読めば、簡単なクローラーをほぼ作成できるようになります。


    一般的に、企業はクローラーを使用しています。私が見た企業では主に Java または Python が使用されています。

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 14:29:26

    Baidu 検索 Python クローラー

    返事
    0
  • 高洛峰

    高洛峰2017-04-17 14:29:26

    最も単純な実用的なフレームワークを備えたシンプルなクローラーです。インターネット上の紹介記事をご覧ください。
    スクレイピーをおすすめします

    返事
    0
  • PHP中文网

    PHP中文网2017-04-17 14:29:26

    Python で簡単なクローラーを作成する方法に関する記事はインターネット上に確かにたくさんありますが、これらの記事のほとんどは例としてのみ見なすことができ、実際に適用できるものはまだほとんどありません。クローラーとは、コンテンツを取得し、分析し、保存することだと思います。初めての方は、Google で検索してみてください。より詳細な調査を行いたい場合は、Github でコードを探して確認してください。

    私自身、Python については少ししか知りませんが、お役に立てれば幸いです。

    返事
    0
  • 怪我咯

    怪我咯2017-04-17 14:29:26

    私のスクラップ情報をご覧ください

    返事
    0
  • 天蓬老师

    天蓬老师2017-04-17 14:29:26

    Scrapy は時間を大幅に節約します
    github には多くの例があります

    返事
    0
  • 迷茫

    迷茫2017-04-17 14:29:26

    Tmall に登るためのコードを投稿してください:

    リーリー

    返事
    0
  • キャンセル返事