目录
    2.1.4 采集关键词【检索列表】的正文数据
    视频教程:模板下载:

    百度搜索关键词:http://www.baidu.com

    一.网站结构

    1.网站截图说明

    使用批量关键词,从百度检索列表依次进入检索结果页,采集结果页里的正文数据。

     

    2.采集结果截图 

     

     

    二.配置模板

    1.新建任务

     

    点击【下一步】,需要采集全部检索结果,所以此处需要勾选【链接列表】和【普通翻页】,如图:

     

    2.配置关键词

     

    ①内置浏览器显示搜索页面后,按照提示:ctrl+左键单击搜索框,点击右下角【完成】。点击右上角【保存】,保存任务配置。

     

    ②关键词列表处,填写关键词,并点击保存。

     

    ③一般情况就配置完毕了,可以采集预览看是否成功。如果有些网站仍然没有结果,需要在【高级设置】中配置关键词参数。

     

    3.采集预览

    看关键词检索的链接是否能够出来,如果没有出来,应该使用脚本采集;如果可以出来,则继续操作。

     

    4.过滤链接列表

    ①用标题过滤链接,过滤关键词检索出的列表链接。

     

    ②采集预览,看是否过滤成功。采集预览出现链接均为网页中关键词检索列表中的链接,过滤成功。

     

    5.过滤翻页链接

    ①用标题过滤翻页链接。

     

    ②采集预览看是否过滤成功。采集预览出现链接均为翻页的链接,过滤成功。

    6.关联模板

    通过关联模板,可以设置该链接将要跳转的下一层级页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整地采集数据。

     

    如果没有创建模板02,可以自行创建模板。

     

    7.填写示例地址

    模板二是为了抽取正文数据,故勾选【抽取数据】,并填写示例数据。

    ①选取任意一条检索结果的网址,也就是模板一过滤得到的任意一条链接,作为模板二的示例地址。

     

    ②点击【下一步】,自动生成数据抽取。

    8.创建/选择表结构

    表结构创建后可以重复选择使用,如果已有建好的表结构,选择对应数据表结构即可。如果没有,点击创建表结构。

     

    【创建表结构】

    8.配置表结构

    根据所需内容,配置表结构字段,此处配置了包括网页标题、网页地址、全部文本三个字段。

    ①id:主键字段,自动取值。

    ②title:通过字段定位取值,按ctrl+单击标题,确认选取。

     

    ③content字段:

     

    9.关联数据表

    先选择对应表结构,然后再创建关联数据表,如图所示。

     

    选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。

     

     

    10.模板预览

    通过预览,可以了解配置是否能够正确地采集到所需数据。点击【采集预览】按钮,可以从入口页逐层预览各个模板的数据。

    点击任意一条链接,看看是否可以得到和网页对应的规整的数据。