python小白想爬取网络数据,个人的经验是建议你先打好python基础,虽然绝大部分python不会有很复杂的业务逻辑,但是页面的HTML结构你要清楚,python的语法也要清楚,相比python语法,对于爬虫,可能html结构更需要注意。
xpath语法,正则表达式都是提取网页数据的一种手段,相比较而言xpath效率也更些,最主要的是简洁,逻辑清楚,正则表达式我有的时候自己写了什么都不知道
这是我用request爬虫医院信息里自己写的代码示例,里面就有xpath的处理逻辑,当然少不了循环的处理,基本上一个爬虫这两部分是少不了的,如果你要写的更有序,高效一些,就需要用到类、函数等高级的用法。
框架,没错,框架可以让我们更加关注业务逻辑本身,而不是代码书写上
在这里我推荐SCRAPY这个框架,简单易用、跨平台等多种特性,都可以使我们很好地上手刚绝爬虫。以我爬取诗词网的数据为例,只需要重点关注网页数据的提取和最终详情页面的字段提取这两项内容。