scrapyd 部署爬虫项目
准备工作
- 安装scrapyd==1.2.0
pip install scrapyd
- 安装scrapyd-client==1.2.0a1
pip install scrapyd-client
- twisted版本为17.1.0
Twisted-17.1.0-cp36-cp36m-win_amd64.whl下载地址:
- scrapy==1.6.0
修改scrapy.cfg文件
- 在scrapy创建的爬虫项目中,找到scrapy.cfg文件, 添加以下内容:
[deploy:job_deploy] # job_deploy名字可以任意
url = http://127.0.0.1:6800/
project = job51Spider
- 在pycharm控制台输入:
scrapyd-deploy
- 如果出现:
- 表示scrapyd正常
注意:若出现scrapyd-deploy不是内部或外部命令,也不是可运行的程序。
- 应在python安装包的目录下添加scrapyd-deploy.exe:
安装步骤:
- 下载scrapyd-client-master;
链接:https://pan.baidu.com/s/14ZH4HUWUjcPMW3titx00Zw&shfl=sharepset
提取码:bn78 - 解压下载的文件,在文件目录下打开命令窗口;
- 输入:python setup.py install 命令安装即可。
部署项目
- 部署操作:
scrapyd-deploy job_deploy -p job
- 部署操作会打包你的当前项目,当前项目目录下会出现两个文件夹分别是build/project.egg-info,如果当前项目下有setup.py文件,就会使用它,没有的会就会自动创建一个。
- 如果部署成功,会出现:
- 注意:如果出现其他情况,则可能是python包,版本不正确。
开启爬虫 schedule
命令代码:
curl http://localhost:6800/schedule.json -d project=job51Spider -d spider=job
其中:
- project:部署项目时,返回的project;
- spider :爬虫名。
运行命令结果:
关闭爬虫
命令代码:
其中:
- project:部署项目时,返回的project;
- job:开启爬虫是返回的json数据的jobid。
运行命令结果:
删除项目
命令代码:
curl http://localhost:6800/delproject.json -d project=job51Spider
运行命令结果:
网页界面展示
- 开启爬虫 schedule:
- 关闭爬虫: