淘先锋技术网

首页 1 2 3 4 5 6 7

css的子元素有:

* a - 锚点

* abbr - 缩写

* acronym - 首字

* b - 粗体(不推荐)

* bdo - bidi override

* big - 大字体

* br - 换行

* cite - 引用

* code - 计算机代码(在引用源码的时候需要)

* dfn - 定义字段

* em - 强调

* font - 字体设定(不推荐)

* i - 斜体

* img - 图片

* input - 输入框

* kbd - 定义键盘文本

* label - 表格标签

* q - 短引用

* s - 中划线(不推荐)

* samp - 定义范例计算机代码

* select - 项目选择

* small - 小字体文本

* span - 常用内联容器,定义文本内区块

* strike - 中划线

* strong - 粗体强调

* sub - 下标

* sup - 上标

* textarea - 多行文本输入框

* tt - 电传文本

* u - 下划线

* var - 定义变量

WebMagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。

设计原理

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

webmagic包含页面抽取功能,开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。

使用maven

webmagic使用maven管理依赖,在项目中添加对应的依赖即可使用webmagic:

WebMagic 使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现,请在项目中去掉此依赖。

项目结构

webmagic主要包括两个包:

webmagic-corewebmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。

webmagic-extensionwebmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。

webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译。

css选择器加.是类选择器,选择与class属性相匹配的类名

css选择器的类型分为3类:标记选择器、类别选择器和ID选择器。

(可能名称有不同的说法,但意思都是一样的) 标记选择器是利用HTML的标记直接定义标记内容的样式,如:h1{ color:red; font-size:25pt;} 类别选择器是通常说的class选择器,定义的时候要在名称前加.如:.one{ color:red; font-size:25pt;} ID选择器定义的时候要在前面加#,如:#box { color:red; font-size:25pt;} 利用DW写CSS的时候,高级就是上面说的ID选择器,ID选择器的名字可以任意命名,可以自己定义,可是标签就只能是HTML语言里制定的那些标记,不能自己定义。