识别列表用于采集表格或列表的数据。以采集前嗅官网的表格(http://www.forenose.com/pannel/prod/server_cen.html)为例。
1.创建表单
根据表格内容,创建一个存储表格数据的表单。
【采集表格的表结构】
①主键字段
采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,主键字段的采集内容必须选择“自增ID”。不能选择网页主键,因为网页主键以网址的MD5作为主键,主键是唯一的,会导致只能采集一行数据。
【主键字段的配置】
②其它字段
【其他字段的配置】
2.识别列表
选择好新建的表单,按Ctrl+鼠标左键点击任意某个单元格,按Shift再次点击扩大区域范围直至框住所需数据部位。
【选取定位】
定位成功后,点击识别列表屏幕中会出现下图字样:
【定位成功】
3.字段定位取值
主键字段自动取值,不需要定位取值。其他字段需要一一取值。
点击数据抽取中各字段,为其一一配置表格不同列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“确认选取”。
【各字段定位】
4.采集预览
各字段定位成功后,可以点击采集预览查看采集结果。
【采集预览】