目录
    1.2.3 采集配置思路
    视频教程:模板下载:

    一.判断网站结构,确定模板层级

    对需要采集的网站,首先梳理网站的层级结构,以确定在软件中需要配置几层模板。

    从网站入口页到目标数据页,一共需要跳转几层页面,通常就需要几层模板。每个模板代表了一个层级的页面,配置后就可以采集全站数据。以下列举了几种常见的层级情况:

    1.一层模板案例

    采集【表格/列表】的数据

    2.两层模板案例

    通过【链接列表】采集【数据详情】

    采集【链接列表】和【数据详情】的数据

    通过关键词的【检索列表】采集【检索结果】

    3.三层及以上模板案例

    从【栏目分类页】进【链接列表页】采集【数据详情页】

    从【商城首页】进【商品列表页】采集【商品页】和【店铺详情】

    二.确定每层的抽取目标

    根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。

    ①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。

    ②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。

    三.抽取链接

    1.获取链接

    通常我们需要的并不是页面的全部链接,所以要过滤出我们所需要的链接。具体通过三种方式可以实现:智能过滤、定位过滤、地址/标题过滤。

    2.选择关联模板

    每个“链接抽取”都需要关联一个模板,将抽取出的链接形成完整的跳转关系。选择方法:

    选择下一层级页面对应的模板点击链接打开的一层页面对应的模板

    ①翻页的链接抽取:关联自身的模板。

    ②其他类型链接抽取:通常关联后一个模板。

    通过模板之间的关联可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。

     

    ※判断链接是否可以可视化实现:

    在不进行过滤的情况下,直接采集预览,出现了目标链接。

    ※如果可视化采集不到:

    通过浏览器F12工具,配合脚本教程,写脚本采集。

    或联系我们。

    四.抽取数据

    1.设计表单结构

    数据采集后存入数据库,需要设计数据表单结构,可以理解为excel表格中的表头。ForeSpider中,不同的任务可以使用同一个表结构,创建任意多个数据表。

    2.抽取数据

    采集网页上的数据,存入设计好的表结构中。获取方式有三种:

    ①通过定位选区获取

    选中表单字段后,在网页中选中对应选区,确认选区。

     



    ②自动获取预设值:软件预设了很多采集内容,直接选择即可获取到数据。比如采集时间、网页标题等。

     


    ③脚本获取:对于可视化采集不到的数据,需要编写脚本。

    五.采集数据

    创建数据表,进行相关的运行设置后,即可采集数据。