집 >백엔드 개발 >파이썬 튜토리얼 >Scrapy를 사용하여 Zhihu 데이터를 크롤링하는 방법은 무엇입니까?

Scrapy를 사용하여 Zhihu 데이터를 크롤링하는 방법은 무엇입니까?

王林원래의: 2023-06-22 14:51:151832검색

Scrapy是一种Python web爬虫工具，它可以轻松地帮助我们获取互联网上各种数据。知乎是一个广受欢迎的社交问答平台，使用Scrapy可以快速抓取知乎上的问题、回答、用户信息等数据。本文将介绍如何使用Scrapy爬取知乎数据。

安装Scrapy

首先需要安装Scrapy。可以使用pip命令直接安装：

pip install scrapy

创建Scrapy项目

在终端中进入要创建Scrapy项目的目录，使用以下命令创建项目：

scrapy startproject zhihu

这个命令将在当前目录下创建一个名为“zhihu”的Scrapy项目。

创建Spider

使用以下命令在项目目录中创建一个名为“zhihu_spider.py”的Spider文件：

scrapy genspider zhihu_spider zhihu.com

这个命令将在项目目录下的“spiders”子目录中创建一个“zhihu_spider.py”文件，该文件包含了一个以zhihu.com为起始URL的Spider。

编写Spider代码

打开“zhihu_spider.py”文件，添加如下代码：

import scrapy

class ZhihuSpider(scrapy.Spider):
    name = 'zhihu'
    allowed_domains = ['zhihu.com']
    start_urls = ['https://www.zhihu.com/']

    def parse(self, response):
        pass

代码中定义了一个名为“ZhihuSpider”的Spider类。Spider类需要定义以下属性：

name：Spider名称
allowed_domains：访问的域名
start_urls：Spider的起始URL

在这个示例中，Spider的起始URL设置为zhihu.com。Spider还必须包含一个名为“parse”的方法，用于处理响应返回的数据。在这个示例中，“parse”方法还没有具体实现，因此先添加一个空的“pass”语句。

解析页面数据

完成Spider创建后，需要添加解析页面数据的代码。在“parse”方法中，使用以下代码：

def parse(self, response):
        questions = response.css('div[data-type="question"]')
        for question in questions:
            yield {
                'question': question.css('h2 a::text').get(),
                'link': question.css('h2 a::attr(href)').get(),
                'answers': question.css('div.zm-item-answer::text').getall(),
            }

这个代码获取页面中包含“data-type”属性未“question”的div元素。然后，通过循环处理每个div元素，从中提取问题标题、链接和答案列表。

在上面的代码中，“yield”是Python语言中的一个关键字，用于生成一个生成器。生成器是一个包含元素的迭代器，每返回一个元素后，就会在该元素的位置暂停执行。在Scrapy中，“yield”关键字用于将从页面解析的数据返回到Scrapy中。

运行爬虫

完成代码编写后，使用以下命令在终端中运行爬虫：

scrapy crawl zhihu

这个命令将启动Scrapy框架，并开始爬取知乎数据。Scrapy会自动访问Spider中指定的起始URL，并通过“parse”方法解析返回的页面数据。解析的数据将输出到终端中。如果需要保存数据，可以将数据存储到CSV、JSON等文件中。

爬取用户数据

上述代码只能爬取问题、回答等数据，并不能获取用户信息。如果需要爬取用户数据，需要使用知乎的API接口。在Spider中，可以使用以下代码获取API接口返回的JSON格式数据：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
url = f'https://www.zhihu.com/api/v4/members/{user}?include=following_count,follower_count,badge[?(type=best_answerer)].topics&limit=20'
yield scrapy.Request(url, headers=headers, callback=self.parse_user)

这个代码从API接口中获取指定用户的信息。在这里，使用了f-string格式化字符串，将要获取的用户的用户名插入到URL中。

在回调函数中，使用以下代码从JSON格式的数据中提取所需的数据：

def parse_user(self, response):
        data = json.loads(response.body)['data']
        following_count = data['following_count']
        follower_count = data['follower_count']
        best_answerer = data['badge'][0]['topics']
        yield {
            'user_id': data['id'],
            'name': data['name'],
            'headline': data['headline'],
            'following_count': following_count,
            'follower_count': follower_count,
            'best_answerer': best_answerer,
        }

这个代码从JSON数据中提取了用户ID、用户昵称、头像、关注数、粉丝数、最佳回答问题等数据。

总结

本文介绍了如何使用Scrapy爬取知乎数据。首先，需要创建一个Scrapy项目，并创建一个Spider。然后，使用CSS选择器解析页面中的数据，将爬取到的数据存储到生成器中。最后，存储到CSV、JSON等文件中，或者直接输出到终端中即可。如果需要获取用户数据，可以使用知乎API接口从JSON数据中提取相关数据。

위 내용은 Scrapy를 사용하여 Zhihu 데이터를 크롤링하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python json css scrapy pip String 回调函数字符串循环接口选择器

성명：

이전 기사：Python에서 Django 사용하기: 초보자부터 고급 프로그래밍까지다음 기사：Python에서 Django 사용하기: 초보자부터 고급 프로그래밍까지