1. 安装 scrapyd
指令 pip install scrapyd
安装完成后,在你当前的python环境根目录下,有一个scrapyd.exe
2. 先在Terminal 执行scrapyd 执行指令: scrapyd
================= 点击链接地址可看到执行成功的 可视化界面 标志着已经成功启动 ===================
<<输入:scrapyd 命令并执行会多出一个 dbs 的空文件夹,用来存放爬虫项目的数据文件。>>
3. 安装 scrapyd-client 指令 pip install scrapyd-client 安装之后 pycharm 将可直接看到 相关配置文件
简介:这个模块是专门用来打包scrapy爬虫的项目到scrapyd中。
安装过程:
(1) 进入项目
因为安装完后会在scrapyd中出现scrapyd-deploy,这个scrapyd-deploy无后缀文件是启动文件,在Linux系统下可以远行,在 windows下是不能运行的,所以我们需要编辑一下使其在windows可以运行。
(3)新建一个新的 scrapyd-deploy.bat 文件,输入配置:
如图:
@echo off
"C:\python27\python.exe" "C:\python27\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9 (可用 %* 代替)
注: 如果 路径中含有中文则必须添加 " " 引号
(4) 添加一个新的 scrapy.bat 文件 输入配置如图:
@echo off
C:\Python27\python.exe C:\Python27\Scripts\scrapy %*
================================ 找到csf相关文件进行设置 =============================
4. 打包前,执行一个命令 ,scrapy list ,这个命令执行说明可以进行打包了。
注意执行 scrapy list 命令的时候很有可能出现错误,如果是python无法找到scrapy项目,需要在scrapy项目里的settings.py 配置文件里设置成python可识别路径。
需要在scrapy项目里的settings.py配置文件里设置成python可识别路径
将当前项目的一级目录TotalSpider目录添加到python可以识别目录中
BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(file)))
sys.path.insert(0, os.path.join(BASE_DIR, “TotalSpider”))
5. 新建一个窗口 执行 scrapyd-deploy 命令 若执行成功 将反馈 如下图信息
6. 可执行如下启动命令 指令: scrapyd-deploy scrapy.csf 中自行设置的内容 -p project名称
如图:打包成功
---------------------
7. 输入 scrapyd-deploy 可查看 正在执行的 程序信息 如下图所示:
知识点拓展 :
获取状态
获取项目列表
获取项目下已发布的爬虫列表
获取项目下已发布的爬虫版本列表
获取爬虫运行状态
启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
删除某一版本爬虫
删除某一工程,包括该工程下的各版本爬虫