< 返回文档列表
3.6.1 字段取值
noInitnoInit

字段从网页上取值,有几种情况:

1. 自动取值:有些采集类型可以自动获取网页上的内容。

2. 标准定位:通过在网页上定位选区,获取数据。

3. 特征定位:根据网页文本的特征定位选区,获取数据。

4. 模板取值:部分数据在另一个网页上,想存储在同一张表中。

5. 脚本取值:通过编写脚本获取数据。

一.自动取值的字段类型

当采集内容设置为以下内容时,系统会自动为字段赋值,无需额外操作。

采集内容大类

采集内容小类

说明

可见文本

网页内文字文本

采集整个页面中所有可见的文字文本。

主键

网页主键


自增ID主键


源码/图片/文件

网页全部内容

采集网页全部文本,包含html标签等,即整个页面的源代码。

网页信息

网页地址

自动采集网页的URL地址。

网页标题

采集网页的标题。即网页<title>中的内容。

文档数据大小

采集对象的质量大小[单位:字节]。

文档名称

当前文档(文件)的名称

文档后缀

文档的文件名后缀

文档后缀类型

文档后缀的枚举类型

文档视宽

文档的宽[如果是图片数据则为图片的宽]

文档视高

文档的高[如果是图片数据则为图片的高]

文档层级

文档被采集时的链接深度(层级)

原始网页地址

当页面重定向以后,依然保存重定向以前的地址

时间信息

网页创建时间

文档创建或网页发布的时间。

网页更新时间

文档或网页更新的时间。

网页获取时间

ForeSpider采集该网页的时间。

当前系统时间

数据采集入库的时间。

采集任务信息

任务ID

采集当前任务的ID。

任务名称

采集当前任务的名称。

 

二.标准定位取值

1.标准定位含义

通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。

2.定位方法

①选择:按Ctrl点击页面上相应数据的区域。

②扩大选区:按Shift再次点击页面相应区域。

③确认选区:点击“确认选区”按钮,选区生效。

 

【标准定位】

三.特征定位取值

1.特征定位含义

当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。

举例:对于字符串“作者:***”,采集作者名称时,可用“作者:”作为特征来定位。

2.操作方法

①选择:按Ctrl点击页面上所需数据的区域。

②识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。

 

【特征定位】

点击“确认选区”按钮,选区生效。

3.特征定位的类型

特征定位分为四种方式:

(1)局部关键词

当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。

(2)全文关键词

根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式

(3)大文本

选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。

(4)特殊标签

采集页面中只出现一次的特殊标签,如标题的<h1>标签等。

 

四.模板取值

当前字段的取值数据不在当前页面,在另一页面时,需要将该字段的取值类型选择为“模板取值”。用另外一个模板的内容来填充该字段的值。(注意:模板取值的id不能填自身)

以某网站为例,从“联系我们”界面进行字段定位取值获取数据,但content字段需在“公司介绍”界面进行取值。

 

【模板取值示例】

①添加字段时,将content字段配置为模板取值。

 

【模板取值字段设置】

②新建模板,示例地址为“公司介绍”的地址。

 

【新建模板】

③新建表单和字段,字段名为content与上个模板中字段名相同。

 

【新建表单字段】

④进行字段定位取值后,右键点击进行模板预览。

 

【模板预览1】

由于页面上是个<a>链接,属性为href,取值的关联模板的ID为2。因此,在此处填写“href=[2]”,完成了该字段的配置后确认“公司介绍”页面的选区。

 

【模板取值配置】

⑥进行模板预览。

 

【模板预览2】