< 返回文档列表
3.5.1 方式一:自定义创建表结构
noInitnoInit

表结构:数据采集后存入数据库,需要设计数据表结构,可以理解为excel表格中的表头。ForeSpider中,不同的任务可以使用同一个表结构,创建任意多个数据表。

字段:在数据库中,表单的“列”称为“字段”,每个字段存储某一项的信息。

一.创建表结构

在表单列表点击“添加”按钮,创建一个新的表单。点击表单配置右侧的“添加”按钮,即弹出添加字段的窗口。

 

【添加字段】

 

二.编辑字段

1.字段名称

字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。

①不支持中文。

②区分大小写。

③不能是SQL语句关键字:如select、time等。

2.字段属性

大部分情况无需选择字段属性。

一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。

序号

名称

描述

1

变长字段

该字段数值长度变化范围很大,且未知,仅对字符串类型,且字段长度为空时有效。

2

多值字段

该字段在一条记录中有很多个值,如果有此属性字段不能构建索引。

3

非空字段

字段值不能为空,插入或更新记录时该字段值为空则操作失败。

4

键值唯一

字段值是唯一的,若插入更新时该字段值已经存在于数据库将导致操作失败。

5

可加字段

是ForeLib独有的属性,该字段可对数据记录进行加减运算。

6

索引字段

为该字段建立索引,以加快检索速度(如果字段不检索请避免添加此属性,否则将增加部分数据库开销),如果该字段是字符串字段,则必须设置字段长度。主键字段自动默认为索引字段。

7

主键字段

该字段为主键。一张数据表里只能有一个主键字段(若字段标为主键字段,则自动含有唯一属性)。

8

字段

该字段值由系统自动生成,无需赋值。采集表格数据时,主键字段要选择自增字段属性。

9

全文索引

为该字段建立全文索引,该字段检索为全文检索。

 

3.采集内容

指该字段需要从网页上获取的数据内容。

当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。

当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

序号

采集内容

采集子内容

描述

1

默认(NONE)

当取值类型为空时,即使选取了定位区域,也不会采集到数据

2

选区内可见文本

选区内全部文本

最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容

选区最外层节点文本

只取选区内的最外层节点,不取其子节点的内容

选区最外两层节点文本

只取选区内最外层节点和其第一级子节点内容

网页内文字文本

采集整个页面中所有可见的文字文本

3

主键

网页主键

网页唯一标识

自增ID主键

该字段会按照自增顺序自动排序

4

选区节点

选区节点名称

选区内html代码中该节点标签名称

选区节点属性值

采集选区内该节点的属性值。需要在“标签属性”填写该节点标签的属性,多个属性用“;”隔开

5

网页代码/图片等资源数据

数据流文件

采集图片、视音频、文件等

图片

采集页面中位置固定的图片位置不固定选择“数据流文件”

资源数据(pdf、doc...)

采集页面中位置固定的资源文件。位置不固定选择“数据流文件”

网页全部内容

采集网页全部文本,包含html标签等,即整个页面的源代码

选区网页源码(包含当前标签)

采集网页内所有选区的源代码(包含当前标签)

选区网页内源码

采集网页内所有选区的源代码

6

网页信息

网页地址

自动采集网页的URL地址

网页标题

采集网页的标题。即网页<title>中的内容

文档数据大小

采集对象的质量大小[单位:字节]

文档名称

采集对象的文件名,如***.html,***.doc

文档后缀

文档的文件名后缀,如html、pdf等

文档后缀类型

文档后缀所对应的文档类型:如****.pdf是图片

文档视高

文档的高[如果是图片数据则为图片的高]

文档视宽

文档的宽[如果是图片数据则为图片的宽]

文档层级

自动获取从入口页当当前数据页的跳转层级数目

原始网页地址(基地址)

当网页的网址重定向时,可以获取到重定向之前的原始网址。

7

时间信息

网页创建时间

文档创建或网页发布的时间

网页更新时间

文档或网页更新的时间

网页获取时间

ForeSpider采集该网页的时间

当前系统时间

数据采集入库的时间

8

采集任务信息

任务ID

采集当前频道的ID

任务名称

采集当前频道的名称

任务KEY

外部数据源采集的关联ID或者关键词采集与关键词相关的KEY

任务VALUE

外部数据源采集关联的数据或者关键词采集的关键词

9

分类信息取值

挖掘规则取值

通过分类器进行主题分类时,选取的自动赋值类型。

分类ID

分类名称

分类路径

分类识别词/规则

文档分类ID

文档分类名称

文档分类路径

文档分类识别词/规则

10

高级取值

脚本取值

由用户自己编写脚本为字段取值时,选择该类型。

模板取值

当前字段的所需数据不在当前页面在另一页面时,选择模板取值,可以用另外一个模板的内容来填充该字段的值。

事件取值

预留功能

示例:

1选区内全部文本:

<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,采集全部标签下的内容。

2选区最外层节点文本:

<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,只选取<ul>节点,不采集<li>和<a>内容。

3选区最外两层节点文本:

<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,只采集<ul><li>的内容,不采集<a>的内容。

4网页内文字文本:采集整个页面中所有可见的文字文本。

 

4.数据类型

数据类型如下表所示:

变量类型

描述

数字

存放整数型数据。单精度,字长为4。

长数字

存放位数长的整数型数据。长整形,字长为8。

浮点数

存放小数数据。数字浮点数,字长为8。

字符串

存放字符串数据。定长或变长,如不指定字段长度则为变长。

流数据

数据流,存放二进制数据,采集图片时需要选择流数据。

 

5.数据长度

只有变量类型是字符串时需要填写长度。字符串长度有两种情况:

(1)定长字符串

文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。

 

【设置短文本】

(2)变长字符串

本较大时,无需填写字符串长度或填0,字段属性选择“变长字段”

长文本:适用于新闻、正文等小于64K的文本。

 

【设置长文本】

超长文本:适用于论文等超过64K大小的超长文本。

 

【设置超长文本】

6.备注

备注”文本框里,用户可以为字段填写描述性的注释内容。

 

三.操作字段

在数据建表的表单配置右侧,可以对表单进行一系列操作。

①添加:添加字段。

②修改:修改字段,双击某一字段也可以。

③上移:字段排名上移。

④下移:字段排名下移。

⑤删除:删除字段。

⑥保存:保存数据表。