我特地下载了电子书,浏览了一遍。
如果10分满分,此书3分以下,《网络数据采集》7.5分。
此书可称标题党,理由如下。
1:第一篇从1-2章理论基础篇,口水凑字文。
2:第二篇核心技术篇从3-9章,讲了点正则、Fiddler、http头,也没啥核心技术。
3:第三篇从第10-17章讲scrapy框架,毫无价值,远远不如scrapy文档。
4:第四篇项目实战篇从18-20章,对于小白多少有点用,但我认为这样项目练手纯粹浪费时间。
那么,网络爬虫主要包含哪些内容呢?
这里简单列个提纲。
0:网络爬虫的定义与道德规范。
1:http协议,重点http头(包括Cookie)和http状态码。
2:html/css/JavaScript,重点在于网页结构原理。
3:网页数据预处理,编码的转换和数据的解压解密。
4:网页数据的提取,重点正则表达式、Lxml、BeautifulSoup。
5:数据的保存,sql和nosql数据库的查改删。
6:日志和错误调试捕捉。
7:爬虫框架,如scrapy,建议阅读
8:搭建分布式爬虫,重点redis组件即redis数据库。
9:常见反爬与对策。重点JavaScript、ajax、代理服务器、图片验证码、selenium+phantomjs模拟浏览器。
10:分布式爬取类似头条、知乎、微博、豆瓣等网站。
对照我列的提纲,这就是我为什么对《精通Python网络爬虫》评价很低的原因。
如果对您有帮助,请点赞支持。