< 返回文档列表
1.2.3 采集配置思路
noInitnoInit

一.判断网站结构,确定模板层级

对需要采集的网站,首先梳理网站的层级结构,以确定在软件中需要配置几层模板。

从网站入口页到目标数据页,一共需要跳转几层页面,通常就需要几层模板。每个模板代表了一个层级的页面,配置后就可以采集全站数据。示例如下:

1.一层模板

采集【表格】的数据(东方财富网)

采集【数据列表】的数据(天猫评论)

采集【链接列表】的数据(美团列表)

通过条件筛选采集【数据详情】(奔驰官网)

通过关键词采集【检索结果】(1对1检索)

2.两层模板

通过【链接列表】采集【数据详情】(新闻)

采集【链接列表】及【数据详情】的数据(采淘宝列表页及商品详情)

通过条件筛选的【链接列表】采集【数据详情】(招投标网站)

通过关键词的【检索列表】采集【检索结果】(百度关键词采集)

3.三层及以上模板

从【栏目分类页】进【链接列表页】采集【数据详情页】(腾讯新闻)

从【商城首页】进【商品列表页】采集【商品页】和【店铺详情】(京东)

二.确定每层的抽取目标

根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。

①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。

②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。

三.抽取链接

1.获取链接

通常我们需要的并不是页面的全部链接,所以要过滤出我们所需要的链接。具体通过三种方式可以实现:智能过滤、定位过滤、地址/标题过滤。

2.选择关联模板

每个“链接抽取”都需要关联一个模板,将抽取出的链接形成完整的跳转关系。选择方法:

选择下一层级页面对应的模板,即点击链接打开的那一层页面对应的模板。

①翻页的链接抽取:关联自身的模板。

②其他类型链接抽取:通常关联后一个模板。

通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。

 

※判断链接可以可视化实现:

在不进行过滤的情况下,直接采集预览,出现了目标链接。

鼠标放到目标链接上,左下方能够看到链接地址,如提示javascript()需要写脚本。

瀑布流翻页需要写脚本,瀑布流分为点击加载更多和随滚轮自动刷新。

※如果可视化采集不到:

通过浏览器F12工具,配合脚本教程,写脚本采集。

联系我们。

四.抽取数据

1.设计表结构

数据采集后存入数据库,需要设计数据表结构,可以理解为excel表格中的表头。ForeSpider中,不同的任务可以使用同一个表结构,创建任意多个数据表。跳转教程到功能介绍-表单详情。

2.抽取数据

采集网页上的数据,存入设计好的表结构中。获取方式有三种:

①通过定位选区获取

选中表单字段后,在网页中选中对应选区,确认选区。

 

②自动获取预设值:软件预设了很多采集内容,直接选择即可获取到数据。比如采集时间、网页标题等。

 

③脚本获取:对于可视化采集不到的数据,需要编写脚本。

跳转脚本教程抽取数据界面。

五.采集数据

创建数据表,进行相关的运行设置后,即可采集数据。