模板相关概念
13731浏览量
2评论
1.模板
模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。
通过示例地址,用模板表示网站的各层级页面。通过模板之间的关联,模拟网站各页面的跳转关系。通过链接抽取,抽出网页中的链接。通过数据抽取,抓取网页中的数据。
2.示例地址
示例地址作为样例,成为模板,通过以该地址配置模板,可以抓取与该地址在同一层级、具有相似结构的页面数据。
3.链接页
链接页存在一个或多个相关链接,能够通过链接关系,最终跳转到数据页。
4.链接抽取
当该示例地址是链接页,需要抽取该网页的链接时,要为该模板创建链接抽取。创建链接抽取后,软件会自动抽取该页面上所有的链接地址。
5.关联模板
关联模板是指该“链接抽取”抽取出的链接,其下一层级页面对应的模板,也就是在浏览器中,点击链接打开的下一层页面。通过模板之间的关联,可以将网站各层级页面关联起来,在软件中形成与浏览器相同的跳转结构,从而完整的采集数据。
6.链接标签
在链接抽取时,当跳转对象不是链接,是图片、框架等采用的不是href属性时,需要手工填写跳转对象采用的属性,如src等。
7.地址过滤
地址过滤是指,通过找寻要抽取链接的url地址规律,通过字符串匹配,过滤掉无关链接的过滤方式。
8.标题过滤
标题过滤是指通过关键词过滤掉无关标题(筛选出有关标题)的过滤方式。
9.过滤串
通过某一串特征字符,筛选出均具备或均不具备这一特征的链接地址。这一串特征字符就称为过滤串。
10.数据页
显示采集的目标数据的页面。
11.数据抽取
数据抽取将数据页的内容,按照创建的数据表结构抽取,将数据存入数据表各字段。
12.标准定位
普通定位方式,通过在内置浏览器上选择数据区域为字段取值。
13.特征定位
当提取的数据具备其他特征时,根据特征值来定位数据。(当表格数据在不同网页的排列顺序不规范时,可以根据表头的特征信息定位。)
14.字段定位取值
字段定位取值,是指从内置浏览器上,定位数据所在的区域,将数据填充到各字段。
15.模板取值
当前字段的取值数据不在当前页面,在另一页面时,需要选择模板取值。用另外一个模板的内容来填充该字段的值。
16.取值标示
当字段的取值类型为“模板取值”或“节点属性”时,填写取值的标志。
17.多值
多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。
18.字段处理
在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。
19.模板预览
当配置了多个层级的模板后,点击“采集预览”预览采集结果时,会逐个模板下载数据,增加预览的等待时间。如果只需要查看某个模板配置的效果,可以对该模板点击鼠标右键,选择“模板预览”,则可以只预览当前模板的配置效果,节省等待时间。
- ·ForeSpider入门教程 23722
- ·ForeSpider数据采集系统功能说明 16716
- ·软件用途 16156
- ·软件功能 15998
- ·ForeSpider数据采集特点 15379
- ·创建表单的视频教程 15303
- ·采集策略相关概念 15171
- ·频道相关概念 14915
- ·表单相关概念 14565
- ·模板相关概念 13731
评论区
+ 写评论