xpath 선택 결과를 확인하기 위해 scrapy shell을 사용하는 방법에 대한 자세한 튜토리얼-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

xpath 선택 결과를 확인하기 위해 scrapy shell을 사용하는 방법에 대한 자세한 튜토리얼

巴扎黑

Jul 19, 2017 pm 02:19 PM

ipythonscrapyshell

1. scrapy shell

은 scrapy 패키지의 좋은 대화형 도구로 현재는 xpath 선택 결과를 확인하는 데 주로 사용합니다. scrapy를 설치한 후 cmd에서 직접 scrapy 쉘을 작동할 수 있습니다.

Scrapy Shell

Scrapy 터미널은 스파이더를 시작하지 않고도 코드를 시도하고 디버그할 수 있으며 XPath 또는 CSS 표현식이 어떻게 작동하는지 확인하는 데에도 사용할 수 있으며 이는 웹 페이지 크롤링을 용이하게 합니다. 에서 추출한 데이터.

IPython이 설치된 경우 Scrapy 터미널은 표준 Python 터미널 대신 IPython을 사용합니다. IPython 터미널은 지능적인 자동 완성, 강조 표시된 출력 및 기타 기능을 제공하여 다른 터미널보다 더 강력합니다. (IPython 설치 권장)

스크래피 쉘 시작

프로젝트의 루트 디렉터리에 들어가서 다음 명령을 실행하여 쉘을 시작합니다.

scrapy shell "http://www.itcast.cn/channel/teacher .shtml"

Scrapy Shell은 다운로드된 페이지를 기반으로 Response 개체 및 Selector 개체(HTML 및 XML 콘텐츠용)와 같은 몇 가지 편리한 개체를 자동으로 생성합니다.

셸이 로드되면 응답 데이터가 포함된 로컬 응답 변수를 얻게 됩니다. 응답 본문을 출력하려면 response.body를 입력하고, 응답 헤더를 보려면 response.headers를 출력하세요.

response.selector를 입력하면 response로 초기화된 Selector 클래스의 객체를 얻게 됩니다. 이때 response.selector.xpath() 또는 response.selector.css()를 사용하여 응답을 쿼리할 수 있습니다.

Scrapy는 또한 (이전 사례처럼) 적용될 수 있는 response.xpath() 또는 response.css()와 같은 몇 가지 단축키를 제공합니다.

선택기

Scrapy 선택기에는 XPath 및 CSS 선택기 표현 메커니즘이 내장되어 있습니다.

Selector에는 4가지 기본 메서드가 있으며 가장 일반적으로 사용되는 방법은 xpath입니다.

xpath(): xpath 표현식을 전달하고 선택기를 반환합니다. 모든 해당 노드 목록

extract(): 노드를 유니코드 문자열로 직렬화하고 목록을 반환

css(): CSS 표현식을 전달하고 표현식에 해당하는 모든 노드의 선택기 목록을 반환합니다. 구문은 다음과 같습니다. BeautifulSoup4

re()와 동일: 들어오는 정규식에 따라 데이터를 추출하고 유니코드 문자열 목록 목록을 반환합니다

2. ipython

공식에서는 ipython을 사용하는 것이 좋습니다. 웹사이트 scrapy shell을 실행해서 설치해 보았습니다. 내 Python 환경은 이전에 conda를 통해 구성되었기 때문에(이전 기사 참조) conda를 통해 ipython을 설치하는 것이 매우 편리합니다

conda install -c conda-forge ipython

그러면 전체 ipython 패키지가 다운로드됩니다. 모두 컴파일되었기 때문에 더 이상 귀찮은 일이 아닙니다. 프로세스가 실패했습니다.

3. ipython 및 scrapy shell on ipython

현재 cmd 실행 상자에서는 시스템 환경이 구성되어 있기 때문에 Python 패키지를 직접 실행할 수 있으므로 cmd 실행 상자에 직접 입력하세요. ipython을 ipython에 추가하면 시스템 표준 cmd와 유사하지만 더 풍부한 기능, 더 풍부한 색상 및 더 나은 레이아웃을 갖춘 ipython 실행 상자에 들어갑니다.

근데 scrapy shell 명령을 직접 입력하면 그런 명령이 없다고 계속해서 실패합니다. 여기에 갇혀 있습니다.

나중에, scrapy shell의 지침을 주의 깊게 읽으십시오

IPython이 설치되어 있으면 Scrapy 쉘이 (표준 Python 콘솔 대신) 이를 사용하게 됩니다.

scrapy 쉘이 ipython을 찾는 방법은 다음과 같습니다. 그 자체.

그래서 cmd의 표준 실행 상자에 scrapy shell 을 직접 입력하면 반환된 결과가 ipython 실행 상자로 직접 호출됩니다.

위 내용은 xpath 선택 결과를 확인하기 위해 scrapy shell을 사용하는 방법에 대한 자세한 튜토리얼의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Scrapy实现微信公众号文章爬取和分析Jun 22, 2023 am 09:41 AM

Scrapy实现微信公众号文章爬取和分析微信是近年来备受欢迎的社交媒体应用，在其中运营的公众号也扮演着非常重要的角色。众所周知，微信公众号是一个信息和知识的海洋，因为其中每个公众号都可以发布文章、图文消息等信息。这些信息可以被广泛地应用在很多领域中，比如媒体报道、学术研究等。那么，本篇文章将介绍如何使用Scrapy框架来实现微信公众号文章的爬取和分析。Scr

ipython安装教程Dec 05, 2023 pm 02:15 PM

安装教程：1、确保已经安装了Python，ipython是一个Python包，所以需要先安装Python；2、打开命令行或终端，输入“pip install ipython”命令安装ipython；3、若系统中同时安装了Python2和Python3，可使用“pip3 install ipython”命令安装ipython3；4、安装完成即可。

Scrapy基于Ajax异步加载实现方法Jun 22, 2023 pm 11:09 PM

Scrapy是一个开源的Python爬虫框架，它可以快速高效地从网站上获取数据。然而，很多网站采用了Ajax异步加载技术，使得Scrapy无法直接获取数据。本文将介绍基于Ajax异步加载的Scrapy实现方法。一、Ajax异步加载原理Ajax异步加载：在传统的页面加载方式中，浏览器发送请求到服务器后，必须等待服务器返回响应并将页面全部加载完毕才能进行下一步操

如何将IPython笔记本转换为PDF和HTML？Sep 08, 2023 pm 08:33 PM

IPython笔记本是一种非常流行的科学计算和数据分析工具，被研究人员、分析师和程序员广泛使用。通过允许用户将代码、文本和交互式可视化集成到单个文档中，它们使探索数据、开发模型和交流结果变得简单。然而，与其他人共享IPython笔记本可能很困难，特别是当接收者缺乏运行它们所需的软件或专业知识时。应对这一挑战的一个解决方案是将IPython笔记本转换为PDF和HTML，它们受到普遍支持，并且可以在任何设备上轻松访问。在本文中，我们将深入研究将IPython笔记本转换为PDF和HTML的三种方法，其

Scrapy优化技巧：如何减少重复URL的爬取，提高效率Jun 22, 2023 pm 01:57 PM

Scrapy是一个功能强大的Python爬虫框架，可以用于从互联网上获取大量的数据。但是，在进行Scrapy开发时，经常会遇到重复URL的爬取问题，这会浪费大量的时间和资源，影响效率。本文将介绍一些Scrapy优化技巧，以减少重复URL的爬取，提高Scrapy爬虫的效率。一、使用start_urls和allowed_domains属性在Scrapy爬虫中，可

ipython和python区别是什么Dec 04, 2023 pm 04:45 PM

IPython与Python之间的主要区别在于IPython是Python的一个增强版本的交互式解释器，IPython提供了更加丰富的功能和工具，适用于更为高效和便捷的交互式编程和数据科学应用。IPython作为Python的增强版，提供了更多的特性和功能，使得IPython成为了许多Python开发者和数据科学家首选的交互式编程环境。

在Scrapy爬虫中使用Selenium和PhantomJSJun 22, 2023 pm 06:03 PM

在Scrapy爬虫中使用Selenium和PhantomJSScrapy是Python下的一个优秀的网络爬虫框架，已经被广泛应用于各个领域中的数据采集和处理。在爬虫的实现中，有时候需要模拟浏览器操作去获取某些网站呈现的内容，这时候就需要用到Selenium和PhantomJS。Selenium是模拟人类对浏览器的操作，让我们可以自动化地进行Web应用程序测试

深度使用Scrapy：如何爬取HTML、XML、JSON数据？Jun 22, 2023 pm 05:58 PM

Scrapy是一款强大的Python爬虫框架，可以帮助我们快速、灵活地获取互联网上的数据。在实际爬取过程中，我们会经常遇到HTML、XML、JSON等各种数据格式。在这篇文章中，我们将介绍如何使用Scrapy分别爬取这三种数据格式的方法。一、爬取HTML数据创建Scrapy项目首先，我们需要创建一个Scrapy项目。打开命令行，输入以下命令：scrapys

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.