一.判断网站结构,确定模板层级
对需要采集的网站,首先梳理网站的层级结构,以确定在软件中需要配置几层模板。
从网站入口页到目标数据页,一共需要跳转几层页面,通常就需要几层模板。每个模板代表了一个层级的页面,配置后就可以采集全站数据。以下列举了几种常见的层级情况:
1.一层模板案例
采集【表格/列表】的数据
2.两层模板案例
通过【链接列表】采集【数据详情】
采集【链接列表】和【数据详情】的数据
通过关键词的【检索列表】采集【检索结果】
3.三层及以上模板案例
从【栏目分类页】进【链接列表页】采集【数据详情页】
从【商城首页】进【商品列表页】采集【商品页】和【店铺详情】
二.确定每层的抽取目标
根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。
①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。
②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。
三.抽取链接
1.获取链接
通常我们需要的并不是页面的全部链接,所以要过滤出我们所需要的链接。具体通过三种方式可以实现:智能过滤、定位过滤、地址/标题过滤。
2.选择关联模板
每个“链接抽取”都需要关联一个模板,将抽取出的链接形成完整的跳转关系。选择方法:
选择下一层级页面对应的模板,即点击链接打开的那一层页面对应的模板。
①翻页的链接抽取:关联自身的模板。
②其他类型链接抽取:通常关联后一个模板。
通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。
※判断链接是否可以可视化实现:
在不进行过滤的情况下,直接采集预览,出现了目标链接。
※如果可视化采集不到:
通过浏览器F12工具,配合脚本教程,写脚本采集。
或联系我们。
四.抽取数据
1.设计表单结构
数据采集后存入数据库,需要设计数据表单结构,可以理解为excel表格中的表头。ForeSpider中,不同的任务可以使用同一个表结构,创建任意多个数据表。
2.抽取数据
采集网页上的数据,存入设计好的表结构中。获取方式有三种:
①通过定位选区获取
选中表单字段后,在网页中选中对应选区,确认选区。
②自动获取预设值:软件预设了很多采集内容,直接选择即可获取到数据。比如采集时间、网页标题等。
③脚本获取:对于可视化采集不到的数据,需要编写脚本。
五.采集数据
创建数据表,进行相关的运行设置后,即可采集数据。