ホームページ  >  に質問  >  本文

Python - Scrapy ItemLoader データのクリーニングに関する質問

scrapyを使ってデータを取得する場合は、itemloaderクラスを使用し、selectorで取り出した値が空の場合は、scrapyと入力します。フィールド ()
filter() を呼び出しますが、セレクターの値は空ではなく、確かに「値がある」を返します。selector が取り出される場合、 [] または "" の場合、value は、filter() を入力した後に「値なし」を返しません。 リーリー

空の値をキャプチャし、filterer() の後に「値なし」に変える方法はありますか?

PHPzPHPz2702日前1099

全員に返信(1)返信します

  • 仅有的幸福

    仅有的幸福2017-05-27 17:41:47

    ご招待ありがとうございます~
    私は Scrapy についてはあまり詳しくないので、このトピックについてはあまり言えません。私が PHP で作成したクローラーの一般的なアイデアは次のとおりです。
    まず、通常どおりです。ルールといくつかのループを使用して、収集するページをキューに入れ、カテゴリ分類を押します。たとえば、ページ分割されたリスト ページのキューと、リスト内のデータ コンテンツ ページのキューです。
    2. 次に、xpath を使用して、関連するコンテンツ ページのデータをクロールします。クロールされたデータの一部は、サブジェクトの要求に応じて処理されます。
    3. 必要な規格に従ってデータを組み立て、保存します。

    私のクローラ フレームワークのほとんどは、おそらくこの考えに基づいており、これに基づいて、クローリング防止メカニズム、マルチスレッド、マルチプロセス、増分クローリングなどの機能を追加しています。そこで、質問者さんはあなたのフレームワークを見つけました爬取数据那里进行处理或组装数据的地方进行处理都行

    返事
    0
  • キャンセル返事