1.2.3 采集配置思路

教程列表

一.判断网站结构，确定模板层级

对需要采集的网站，首先梳理网站的层级结构，以确定在软件中需要配置几层模板。

从网站入口页到目标数据页，一共需要跳转几层页面，通常就需要几层模板。每个模板代表了一个层级的页面，配置后就可以采集全站数据。以下列举了几种常见的层级情况：

1.一层模板案例

采集【表格/列表】的数据

2.两层模板案例

通过【链接列表】采集【数据详情】

采集【链接列表】和【数据详情】的数据

通过关键词的【检索列表】采集【检索结果】

3.三层及以上模板案例

从【栏目分类页】进【链接列表页】采集【数据详情页】

从【商城首页】进【商品列表页】采集【商品页】和【店铺详情】

二.确定每层的抽取目标

根据页面内容，确定每层模板的抽取目标，每层模板都可以创建多个抽取。

①抽取链接：需要抽取页面上的链接时，选择创建链接抽取。如抽取该页面的链接列表和翻页，则创建两个链接抽取。

②抽取数据：需要抽取页面上的数据时，选择创建数据抽取。

三.抽取链接

1.获取链接

通常我们需要的并不是页面的全部链接，所以要过滤出我们所需要的链接。具体通过三种方式可以实现：智能过滤、定位过滤、地址/标题过滤。

2.选择关联模板

每个“链接抽取”都需要关联一个模板，将抽取出的链接形成完整的跳转关系。选择方法：

选择下一层级页面对应的模板，即点击链接打开的那一层页面对应的模板。

①翻页的链接抽取：关联自身的模板。

②其他类型链接抽取：通常关联后一个模板。

通过模板之间的关联，可以将网站各层级页面关联起来，在软件中形成与浏览器相同的跳转结构，从而完整的采集数据。

※判断链接是否可以可视化实现：

在不进行过滤的情况下，直接采集预览，出现了目标链接。

※如果可视化采集不到：

通过浏览器F12工具，配合脚本教程，写脚本采集。

或联系我们。

四.抽取数据

1.设计表单结构

数据采集后存入数据库，需要设计数据表单结构，可以理解为excel表格中的表头。ForeSpider中，不同的任务可以使用同一个表结构，创建任意多个数据表。

2.抽取数据

采集网页上的数据，存入设计好的表结构中。获取方式有三种：

①通过定位选区获取

选中表单字段后，在网页中选中对应选区，确认选区。

②自动获取预设值：软件预设了很多采集内容，直接选择即可获取到数据。比如采集时间、网页标题等。

③脚本获取：对于可视化采集不到的数据，需要编写脚本。

五.采集数据

创建数据表，进行相关的运行设置后，即可采集数据。