目录
    2.2.1 采集图片及其地址
    视频教程:模板下载:

    以采集昵图网(http://www.nipic.com/topic/show_27345_1.html)图片为例。

    一.网站结构

    1.网站截图说明

    采集昵图网某页面中所有图片及链接地址。

     

    【昵图网某页面】

    2.采集结果截图

     

    【检索列表链接】

     

    【检索数据结果】

    二.配置模板

    1.新建任务

     

    点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:

     

    【新建采集任务】

    2.过滤链接列表

    ①用定位过滤链接,过滤关键词检索出的列表链接。

     

    【定位过滤列表链接】

    ②采集预览,看是否过滤成功。

    采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。

     

    【采集预览】

    3.过滤翻页链接

    ①用定位过滤链接,过滤翻页链接。

     

    【定位过滤翻页链接】

    ②采集预览,看是否过滤成功。

    采集预览出现链接均为翻页的链接,过滤成功。

     

    【采集预览】

    4.新建数据抽取

     

    【新建数据抽取】

    5.添加示例地址

     

    【添加示例地址】

    6.创建/选择表结构

    表结构创建后可以重复选择使用,如果已有建好的表结构,选择对应数据表结构即可。如果没有,点击创建表结构。

     

    7.配置表结构

    根据所需内容,配置表结构字段,此处配置了包括主键、网页地址、图片三个字段。=>(字段各属性介绍)

    方式一:快速建表。(点击【创建表结构】出现弹窗。)

     

    【配置表结构】

    方式二:自由建表。(在【数据建表】界面)

     

    【字段取值】

    8.关联表结构

     

    9.字段取值

    ①f_id:主键字段,自动取值。

    ②url:当前页面网址,自动取值。

    ③name1:通过字段定位取值,按ctrl+单击标题,确认选取。 

    name1】

    ④fujian:通过字段定位取值,按ctrl+单击图片,确认选取。

     

    10.关联数据表

    先选择对应表结构,然后再创建关联数据表,如图所示。

     

    【创建关联数据表】

    表名称不能使用中文命名,可以使用英文+数字组合,必须用英文字母开头。

     

    【定义表名称】

    【勾选数据表】

    10.模板预览

    通过预览,可以了解配置是否能够正确地采集到所需数据。

    方式一:点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。

    点击任意一条链接,看看是否可以得到和网页对应的规整的数据。

     

    方式二:右键后选择【模板预览】,可以单独预览某个模板的数据。

     

    【模板预览】

     

    【预览结果】