淘先锋技术网

首页 1 2 3 4 5 6 7

我特地下载了电子书,浏览了一遍。

如果10分满分,此书3分以下,《网络数据采集》7.5分。

此书可称标题党,理由如下。

1:第一篇从1-2章理论基础篇,口水凑字文。

2:第二篇核心技术篇从3-9章,讲了点正则、Fiddler、http头,也没啥核心技术。

3:第三篇从第10-17章讲scrapy框架,毫无价值,远远不如scrapy文档。

4:第四篇项目实战篇从18-20章,对于小白多少有点用,但我认为这样项目练手纯粹浪费时间。

那么,网络爬虫主要包含哪些内容呢?

这里简单列个提纲。

0:网络爬虫的定义与道德规范。

1:http协议,重点http头(包括Cookie)和http状态码。

2:html/css/JavaScript,重点在于网页结构原理。

3:网页数据预处理,编码的转换和数据的解压解密。

4:网页数据的提取,重点正则表达式、Lxml、BeautifulSoup。

5:数据的保存,sql和nosql数据库的查改删。

6:日志和错误调试捕捉。

7:爬虫框架,如scrapy,建议阅读官方文档,重点中间件middleware、爬虫spider、queue队列、dupefilter去重、设置setting。

8:搭建分布式爬虫,重点redis组件即redis数据库。

9:常见反爬与对策。重点JavaScript、ajax、代理服务器、图片验证码、selenium+phantomjs模拟浏览器。

10:分布式爬取类似头条、知乎、微博、豆瓣等网站。

对照我列的提纲,这就是我为什么对《精通Python网络爬虫》评价很低的原因。

如果对您有帮助,请点赞支持。