淘先锋技术网

首页 1 2 3 4 5 6 7

scrapyd 部署爬虫项目

准备工作

  1. 安装scrapyd==1.2.0

pip install scrapyd

  1. 安装scrapyd-client==1.2.0a1

pip install scrapyd-client

  1. twisted版本为17.1.0

Twisted-17.1.0-cp36-cp36m-win_amd64.whl下载地址:

  1. scrapy==1.6.0

修改scrapy.cfg文件

  • 在scrapy创建的爬虫项目中,找到scrapy.cfg文件, 添加以下内容:
[deploy:job_deploy]  # job_deploy名字可以任意
url = http://127.0.0.1:6800/
project = job51Spider
  • 在pycharm控制台输入:
scrapyd-deploy
  • 如果出现:
    在这里插入图片描述
  • 表示scrapyd正常

注意:若出现scrapyd-deploy不是内部或外部命令,也不是可运行的程序。

  • 应在python安装包的目录下添加scrapyd-deploy.exe

安装步骤:

  1. 下载scrapyd-client-master;
    链接:
    https://pan.baidu.com/s/14ZH4HUWUjcPMW3titx00Zw&shfl=sharepset
    提取码:bn78
  2. 解压下载的文件,在文件目录下打开命令窗口;
  3. 输入:python setup.py install 命令安装即可。

部署项目

  • 部署操作:
scrapyd-deploy job_deploy -p job
  • 部署操作会打包你的当前项目,当前项目目录下会出现两个文件夹分别是build/project.egg-info,如果当前项目下有setup.py文件,就会使用它,没有的会就会自动创建一个。
  • 如果部署成功,会出现:
    在这里插入图片描述
  • 注意:如果出现其他情况,则可能是python包,版本不正确。

开启爬虫 schedule

命令代码:

curl http://localhost:6800/schedule.json -d project=job51Spider -d spider=job

其中:

  • project:部署项目时,返回的project;
  • spider :爬虫名。
    运行命令结果:
    在这里插入图片描述

关闭爬虫

命令代码:

其中:

  • project:部署项目时,返回的project;
  • job:开启爬虫是返回的json数据的jobid。
    运行命令结果:
    在这里插入图片描述

删除项目

命令代码:

curl http://localhost:6800/delproject.json -d project=job51Spider

运行命令结果:
在这里插入图片描述

网页界面展示

  • 开启爬虫 schedule:
    在这里插入图片描述
  • 关闭爬虫:
    在这里插入图片描述