検索

ホームページ  >  に質問  >  本文

Python - Scrapy を使用して Web サイトのコンテンツをクロールするときに、一部のコンテンツの空の値を無視する方法;

JD.com 上のすべての携帯電話情報をクロールしているときに、次の問題が発生しました:
1. 次の図に示すように、戻り値が多すぎます:

2. スパイダーのコードは次のとおりです:

-- コーディング: utf-8 --

importscrapy
fromscrapy.http importRequest
fromueinfo.itemsimportUeinfoItem

クラスMrueSpider(scrapy.Spider):

リーリー

パイプラインのコードは次のとおりです:

-- コーディング: utf-8 --

インポートpymysql

クラスueinfoPipeline(オブジェクト):

リーリー
大家讲道理大家讲道理2764日前1068

全員に返信(1)返信します

  • 漂亮男人

    漂亮男人2017-06-14 10:55:17

    パイプライン内

    def closeメソッドの定義が間違っています

    こうあるべき

    def close(self, Spider)

    内容が空の一部の値を無視する場合については

    for を使用するとコードを節約できる可能性があります。
    リーリー

    返事
    0
  • キャンセル返事