집 >백엔드 개발 >파이썬 튜토리얼 >Scrapy는 서버에 대한 배포를 어떻게 자동화합니까?

Scrapy는 서버에 대한 배포를 어떻게 자동화합니까?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2023-06-22 08:08:381437검색

Scrapy는 Python에서 가장 인기 있는 크롤러 프레임워크 중 하나입니다. 이를 통해 사용자는 크롤러를 빠르게 구축하고 크롤러 효율성을 향상시킬 수 있습니다. 서버에 Scrapy를 자동으로 배포하면 사용자가 크롤러 프로그램을 보다 편리하게 배포하고 관리할 수 있습니다. 이 기사에서는 Scrapy를 서버에 자동으로 배포하는 방법을 소개합니다.

1. 준비 도구

Scrapy를 서버에 자동으로 배포하려면 몇 가지 도구가 필요합니다. 이러한 도구에는 다음이 포함됩니다.

Git: 로컬과 서버 간 코드 관리를 위한 버전 제어 도구.
SSH: 보안 셸, 안전하게 데이터를 전송하고 로컬 서버와 원격 서버 간에 명령을 실행합니다.
Virtualenv: Scrapy 배포 환경을 더 명확하고 독립적으로 만들 수 있는 Python 가상 환경 관리 도구입니다.
감독자: 서버에서 Scrapy 크롤러 프로세스를 관리하고 모니터링하는 데 사용되는 프로세스 제어 시스템입니다.

이러한 도구는 매우 일반적입니다. 아직 설치되지 않은 경우 공식 문서에 따라 설치할 수 있습니다.

2. 프로젝트 생성

자동화된 Scrapy 배포 전에 먼저 로컬에서 Scrapy 프로젝트를 생성해야 합니다. Scrapy 명령줄 도구를 사용하여 생성할 수 있습니다.

scrapy startproject myproject

이렇게 하면 일부 기본 코드와 디렉터리 구조가 포함된 myproject라는 이름의 Scrapy 프로젝트가 생성됩니다. 다음으로 스파이더, 파이프라인 및 기타 구성 요소를 작성할 수 있습니다. myproject的Scrapy项目，其中包括了一些默认的代码和目录结构。接下来，我们可以编写Spiders、Pipeline以及其他的组件。

为了让我们的Scrapy项目可以更方便地在服务器上部署和运行，我们可以在项目根目录下创建一个requirements.txt文件，用于管理项目所依赖的Python库和版本。这个文件可以通过pip进行创建，例如:

pip freeze > requirements.txt

这会自动生成一个requirements.txt文件，其中包含了当前系统中所安装的所有Python库以及它们的版本信息。我们需要手动删除其中不必要的库并保留必需的库，例如Scrapy和其他相关的库和工具。确定好依赖之后，我们可以使用pip在虚拟环境中安装这些依赖:

pip install -r requirements.txt

三、配置服务器

在开始部署之前，我们需要在服务器上安装需要的组件。以Ubuntu为例，我们需要安装Git、SSH、Virtualenv和Supervisor。可以通过以下命令进行安装:

sudo apt-get update
sudo apt-get install git ssh virtualenv supervisor

安装完成后，我们需要在服务器上创建一个新的用户。这个用户将会在之后的部署和运行中扮演重要的角色，并拥有Scrapy爬虫的访问权限。可以使用以下命令创建一个名为myuser的新用户:

sudo adduser myuser

接下来，我们需要创建一个新的目录，用于保存Scrapy部署文件和相关配置。在服务器上，可以使用以下命令来创建一个/srv/myproject的目录：

sudo mkdir /srv/myproject
sudo chown myuser:myuser /srv/myproject

四、设置Git仓库和SSH

接下来，我们需要将Scrapy项目上传到Git仓库，并使用SSH进行部署。在本地，我们可以使用以下命令将Scrapy项目中所有的代码上传到Git仓库:

git init
git add .
git commit -m "Initial commit"
git remote add origin ssh://myuser@myserver.com/srv/myproject.git
git push -u origin master

这段代码将Scrapy项目上传到了远程服务器上，保存在/srv/myproject.git目录下。

接下来，我们需要在服务器上配置SSH，以便可以使用SSH连接到Git仓库并执行相关操作。我们可以为此创建一个SSH密钥，并将公钥添加到服务器端的authorized_keys文件中。

首先，我们可以在本地使用以下命令创建一个新的SSH密钥:

ssh-keygen

这将会创建一对公钥和私钥。接下来，我们需要将公钥添加到服务器端的authorized_keys文件中:

ssh myuser@myserver.com "mkdir -p ~/.ssh && chmod 0700 ~/.ssh && echo 'PUBLIC_KEY' >> ~/.ssh/authorized_keys && chmod 0600 ~/.ssh/authorized_keys"

请替换PUBLIC_KEY为您本地计算机上的公钥。

现在我们可以使用SSH连接到服务器上并进行操作。

五、部署Scrapy项目

现在，我们已经准备好在服务器上自动部署Scrapy项目了。为此，我们需要在服务器上新建一个虚拟环境，并安装Scrapy和其他需要的依赖库：

mkdir /srv/myproject/env
virtualenv /srv/myproject/env
source /srv/myproject/env/bin/activate
pip install scrapy supervisor

在服务器上创建一个Scrapy项目工作目录，从Git仓库中克隆Scrapy项目，并在其中创建一个supervisord.conf文件用于配置进程管理：

mkdir /srv/myproject/src
cd /srv/myproject/src
git clone ssh://myuser@myserver.com/srv/myproject.git .
cp /srv/myproject/env/bin/supervisord /srv/myproject/env/bin/supervisord.conf /etc
sudo supervisorctl reread
sudo supervisorctl update

这会将Scrapy项目克隆到服务器上，并在/srv/myproject目录下创建supervisord.conf文件。我们可以编辑supervisord.conf文件来启动Scrapy爬虫：

[program:myproject]
command=/srv/myproject/env/bin/scrapy crawl myspider
directory=/srv/myproject/src
autostart=true
autorestart=true
stopasgroup=true
killasgroup=true

其中command参数用于启动Scrapy爬虫，directory参数用于指定工作目录，autostart和autorestart参数用于在Scrapy爬虫停止后自动重启，stopasgroup和killasgroup

Scrapy 프로젝트를 서버에서 더욱 편리하게 배포하고 실행할 수 있도록 프로젝트 루트 디렉터리에 requirements.txt 파일을 생성하여 프로젝트가 의존하는 Python 라이브러리와 라이브러리를 관리할 수 있습니다. 버전. 이 파일은 pip를 통해 생성할 수 있습니다. 예:

sudo supervisorctl start myproject

이렇게 하면 현재 시스템에 설치된 모든 Python 라이브러리와 해당 버전 정보가 포함된 requirements.txt 파일이 자동으로 생성됩니다. 불필요한 라이브러리를 수동으로 제거하고 Scrapy 및 기타 관련 라이브러리 및 도구와 같은 필수 라이브러리를 유지해야 합니다. 종속성을 확인한 후 pip를 사용하여 가상 환경에 이러한 종속성을 설치할 수 있습니다.

rrreee

3. 서버 구성

배포를 시작하기 전에 서버에 필수 구성 요소를 설치해야 합니다. Ubuntu를 예로 들면 Git, SSH, Virtualenv 및 Supervisor를 설치해야 합니다. 다음 명령을 통해 설치할 수 있습니다: 🎜rrreee🎜설치가 완료되면 서버에 새 사용자를 생성해야 합니다. 이 사용자는 후속 배포 및 운영에서 중요한 역할을 하며 Scrapy 크롤러에 액세스할 수 있습니다. 다음 명령을 사용하여 myuser라는 새 사용자를 생성할 수 있습니다. 🎜rrreee🎜 다음으로 Scrapy 배포 파일 및 관련 구성을 저장할 새 디렉터리를 생성해야 합니다. 서버에서 다음 명령을 사용하여 /srv/myproject 디렉토리를 생성할 수 있습니다: 🎜rrreee🎜4. Git 저장소와 SSH를 설정하세요🎜🎜다음으로 Scrapy 프로젝트를 업로드해야 합니다. Git 저장소를 만들고 SSH를 사용하여 배포합니다. 로컬에서는 다음 명령을 사용하여 Scrapy 프로젝트의 모든 코드를 Git 저장소에 업로드할 수 있습니다.🎜rrreee🎜이 코드는 Scrapy 프로젝트를 원격 서버에 업로드하고

/srv/myproject.git에 저장합니다. 코드> 내용 아래. 🎜🎜다음으로 SSH를 사용하여 Git 저장소에 연결하고 관련 작업을 수행할 수 있도록 서버에서 SSH를 구성해야 합니다. 이를 위해 SSH 키를 생성하고 공개 키를 서버 측의 <code>authorized_keys

파일에 추가할 수 있습니다. 🎜🎜먼저 다음 명령을 사용하여 로컬에서 새 SSH 키를 생성할 수 있습니다. 🎜rrreee🎜이렇게 하면 공개 키와 개인 키 쌍이 생성됩니다. 다음으로 서버 측의 authorized_keys 파일에 공개 키를 추가해야 합니다. 🎜rrreee🎜 PUBLIC_KEY를 로컬 컴퓨터의 공개 키로 바꾸세요. 🎜🎜이제 SSH를 사용하여 서버에 연결하고 작업을 수행할 수 있습니다. 🎜🎜5. Scrapy 프로젝트 배포🎜🎜이제 서버에 Scrapy 프로젝트를 자동으로 배포할 준비가 되었습니다. 이를 위해서는 서버에 새로운 가상 환경을 생성하고 Scrapy 및 기타 필수 종속 라이브러리를 설치해야 합니다. 🎜rrreee🎜서버에 Scrapy 프로젝트 작업 디렉터리를 생성하고 Git 저장소에서 Scrapy 프로젝트를 복제한 다음 supervisord.conf 파일은 프로세스 관리를 구성하는 데 사용됩니다. 🎜rrreee🎜이렇게 하면 Scrapy 프로젝트가 서버에 복제되고 /srv/myproject 디렉토리에 supervisord가 생성됩니다. .conf 파일. supervisord.conf 파일을 편집하여 Scrapy 크롤러를 시작할 수 있습니다. 🎜rrreee🎜command 매개변수는 Scrapy 크롤러를 시작하는 데 사용되며 디렉터리 code> 매개변수는 작업 디렉터리를 지정하는 데 사용되며, <code>autostart 및 autorestart 매개변수는 Scrapy 크롤러가 중지된 후 자동으로 다시 시작하는 데 사용되며, stopasgroup 및 killasgroup 매개변수가 사용됩니다. 프로세스를 중지하면 관련 프로세스도 모두 중지됩니다. 🎜🎜마지막으로 다음 명령을 사용하여 Scrapy 크롤러를 시작할 수 있습니다. 🎜rrreee🎜이러한 방식으로 Scrapy 크롤러를 서버에 배포하고 자동으로 실행할 수 있습니다. 🎜🎜요약🎜

Scrapy를 서버에 자동으로 배포하는 것은 매우 편리하고 효율적인 방법입니다. 코드를 원격 Git 저장소에 업로드하고 배포 및 관리를 위해 SSH를 통해 서버에 연결할 수 있습니다. Virtualenv와 Supervisor를 사용하면 프로젝트의 환경과 프로세스를 더 잘 제어할 수 있고 Scrapy 크롤러가 서버에서 자동으로 실행되도록 할 수 있습니다.

위 내용은 Scrapy는 서버에 대한 배포를 어떻게 자동화합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python virtualenv scrapy pip Directory git ubuntu ssh 自动化

성명：

이전 기사：Django 시작 가이드: Python 웹 프로그래밍을 빠르게 배울 수 있는 효율적인 도구다음 기사：Django 시작 가이드: Python 웹 프로그래밍을 빠르게 배울 수 있는 효율적인 도구