字段从网页上取值,有几种情况:
1. 自动取值:有些采集类型可以自动获取网页上的内容。
2. 标准定位:通过在网页上定位选区,获取数据。
3. 特征定位:根据网页文本的特征定位选区,获取数据。
4. 模板取值:部分数据在另一个网页上,想存储在同一张表中。
5. 脚本取值:通过编写脚本获取数据。
一.自动取值的字段类型
当采集内容设置为以下内容时,系统会自动为字段赋值,无需额外操作。
采集内容大类 | 采集内容小类 | 说明 |
可见文本 | 网页内文字文本 | 采集整个页面中所有可见的文字文本。 |
主键 | 网页主键 | |
自增ID主键 | ||
源码/图片/文件 | 网页全部内容 | 采集网页全部文本,包含html标签等,即整个页面的源代码。 |
网页信息 | 网页地址 | 自动采集网页的URL地址。 |
网页标题 | 采集网页的标题。即网页<title>中的内容。 | |
文档数据大小 | 采集对象的质量大小[单位:字节]。 | |
文档名称 | 当前文档(文件)的名称 | |
文档后缀 | 文档的文件名后缀 | |
文档后缀类型 | 文档后缀的枚举类型 | |
文档视宽 | 文档的宽[如果是图片数据则为图片的宽] | |
文档视高 | 文档的高[如果是图片数据则为图片的高] | |
文档层级 | 文档被采集时的链接深度(层级) | |
原始网页地址 | 当页面重定向以后,依然保存重定向以前的地址 | |
时间信息 | 网页创建时间 | 文档创建或网页发布的时间。 |
网页更新时间 | 文档或网页更新的时间。 | |
网页获取时间 | ForeSpider采集该网页的时间。 | |
当前系统时间 | 数据采集入库的时间。 | |
采集任务信息 | 任务ID | 采集当前任务的ID。 |
任务名称 | 采集当前任务的名称。 |
二.标准定位取值
1.标准定位含义
通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。
2.定位方法
①选择:按Ctrl点击页面上相应数据的区域。
②扩大选区:按Shift再次点击页面相应区域。
③确认选区:点击“确认选区”按钮,选区生效。
【标准定位】
三.特征定位取值
1.特征定位含义
当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。
举例:对于字符串“作者:***”,采集作者名称时,可用“作者:”作为特征来定位。
2.操作方法
①选择:按Ctrl点击页面上所需数据的区域。
②识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。
【特征定位】
③点击“确认选区”按钮,选区生效。
3.特征定位的类型
特征定位分为四种方式:
(1)局部关键词
当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。
(2)全文关键词
根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式
(3)大文本
选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。
(4)特殊标签
采集页面中只出现一次的特殊标签,如标题的<h1>标签等。
四.模板取值
当前字段的取值数据不在当前页面,在另一页面时,需要将该字段的取值类型选择为“模板取值”。用另外一个模板的内容来填充该字段的值。(注意:模板取值的id不能填自身)
以某网站为例,从“联系我们”界面进行字段定位取值获取数据,但content字段需在“公司介绍”界面进行取值。
【模板取值示例】
①添加字段时,将content字段配置为模板取值。
【模板取值字段设置】
②新建模板,示例地址为“公司介绍”的地址。
【新建模板】
③新建表单和字段,字段名为content与上个模板中字段名相同。
【新建表单字段】
④进行字段定位取值后,右键点击进行模板预览。
【模板预览1】
⑤由于页面上是个<a>链接,属性为href,取值的关联模板的ID为2。因此,在此处填写“href=[2]”,完成了该字段的配置后确认“公司介绍”页面的选区。
【模板取值配置】
⑥进行模板预览。
【模板预览2】