如何设置字段参数?
720浏览量
0评论
A.字段名称
字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。
①不支持中文。
②区分大小写。
③不能是SQL语句关键字:如select、time等。
B.字段属性
大部分情况无需选择字段属性。
一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。
序号 | 名称 | 描述 |
1 | 变长字段 | 该字段数值长度变化范围很大,且未知,仅对字符串类型,且字段长度为空时有效。 |
2 | 多值字段 | 该字段在一条记录中有很多个值,如果有此属性字段不能构建索引。 |
3 | 非空字段 | 字段值不能为空,插入或更新记录时该字段值为空则操作失败。 |
4 | 键值唯一 | 字段值是唯一的,若插入更新时该字段值已经存在于数据库将导致操作失败。 |
5 | 可加字段 | 是ForeLib独有的属性,该字段可对数据记录进行加减运算。 |
6 | 索引字段 | 为该字段建立索引,以加快检索速度(如果字段不检索请避免添加此属性,否则将增加部分数据库开销),如果该字段是字符串字段,则必须设置字段长度。主键字段自动默认为索引字段。 |
7 | 主键字段 | 该字段为主键。一张数据表里只能有一个主键字段(若字段标为主键字段,则自动含有唯一属性)。 |
8 | 自增字段 | 该字段值由系统自动生成,无需赋值。采集表格数据时,主键字段要选择自增字段属性。 |
9 | 全文索引 | 为该字段建立全文索引,该字段检索为全文检索。 |
C.采集内容
指该字段需要从网页上获取的数据内容。
当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。
当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。
序号 | 采集内容 | 采集子内容 | 描述 |
1 | 默认(NONE) | 空 | 当取值类型为空时,即使选取了定位区域,也不会采集到数据 |
2 | 选区内可见文本 | 选区内全部文本 | 最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容 |
选区最外层节点文本 | 只取选区内的最外层节点,不取其子节点的内容 | ||
选区最外两层节点文本 | 只取选区内最外层节点和其第一级子节点内容 | ||
网页内文字文本 | 采集整个页面中所有可见的文字文本 | ||
3 | 主键 | 网页主键 | 网页唯一标识 |
自增ID主键 | 该字段会按照自增顺序自动排序 | ||
4 | 选区节点 | 选区节点名称 | 选区内html代码中该节点标签名称 |
选区节点属性值 | 采集选区内该节点的属性值。需要在“标签属性”填写该节点标签的属性,多个属性用“;”隔开 | ||
5 | 网页代码/图片等资源数据 | 数据流文件 | 采集图片、视音频、文件等 |
图片 | 采集页面中位置固定的图片位置不固定选择“数据流文件” | ||
资源数据(pdf、doc...) | 采集页面中位置固定的资源文件。位置不固定选择“数据流文件” | ||
网页全部内容 | 采集网页全部文本,包含html标签等,即整个页面的源代码 | ||
选区网页源码(包含当前标签) | 采集网页内所有选区的源代码(包含当前标签) | ||
选区网页内源码 | 采集网页内所有选区的源代码 | ||
6 | 网页信息 | 网页地址 | 自动采集网页的URL地址 |
网页标题 | 采集网页的标题。即网页<title>中的内容 | ||
文档数据大小 | 采集对象的质量大小[单位:字节] | ||
文档名称 | 采集对象的文件名,如***.html,***.doc | ||
文档后缀 | 文档的文件名后缀,如html、pdf等 | ||
文档后缀类型 | 文档后缀所对应的文档类型:如****.pdf是图片 | ||
文档视高 | 文档的高[如果是图片数据则为图片的高] | ||
文档视宽 | 文档的宽[如果是图片数据则为图片的宽] | ||
文档层级 | 自动获取从入口页当当前数据页的跳转层级数目 | ||
原始网页地址(基地址) | 当网页的网址重定向时,可以获取到重定向之前的原始网址。 | ||
7 | 时间信息 | 网页创建时间 | 文档创建或网页发布的时间 |
网页更新时间 | 文档或网页更新的时间 | ||
网页获取时间 | ForeSpider采集该网页的时间 | ||
当前系统时间 | 数据采集入库的时间 | ||
8 | 采集任务信息 | 任务ID | 采集当前频道的ID |
任务名称 | 采集当前频道的名称 | ||
任务KEY | 外部数据源采集的关联ID或者关键词采集与关键词相关的KEY | ||
任务VALUE | 外部数据源采集关联的数据或者关键词采集的关键词 | ||
9 | 分类信息取值 | 挖掘规则取值 | 通过分类器进行主题分类时,选取的自动赋值类型。 |
分类ID | |||
分类名称 | |||
分类路径 | |||
分类识别词/规则 | |||
文档分类ID | |||
文档分类名称 | |||
文档分类路径 | |||
文档分类识别词/规则 | |||
10 | 高级取值 | 脚本取值 | 由用户自己编写脚本为字段取值时,选择该类型。 |
模板取值 | 当前字段的所需数据不在当前页面在另一页面时,选择模板取值,可以用另外一个模板的内容来填充该字段的值。 | ||
事件取值 | 预留功能 |
示例:
(1)选区内全部文本:
<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,采集全部标签下的内容。
(2)选区最外层节点文本:
<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,只选取<ul>节点,不采集<li>和<a>内容。
(3)选区最外两层节点文本:
<ul><li><a href=”www.baidu.com”>百度</a></li></ul>,只采集<ul><li>的内容,不采集<a>的内容。
(4)网页内文字文本:采集整个页面中所有可见的文字文本。
D.数据类型
数据类型如下表所示:
变量类型 | 描述 |
数字 | 存放整数型数据。单精度,字长为4。 |
长数字 | 存放位数长的整数型数据。长整形,字长为8。 |
浮点数 | 存放小数数据。数字浮点数,字长为8。 |
字符串 | 存放字符串数据。定长或变长,如不指定字段长度则为变长。 |
流数据 | 数据流,存放二进制数据,采集图片时需要选择流数据。 |
E.数据长度
只有变量类型是字符串时需要填写长度。字符串长度有两种情况:
(1)定长字符串
文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。
【设置短文本】
(2)变长字符串
文本较大时,无需填写字符串长度或填0,字段属性选择“变长字段”。
①长文本:适用于新闻、正文等小于64K的文本。
【设置长文本】
②超长文本:适用于论文等超过64K大小的超长文本。
【设置超长文本】
F.备注
在“备注”文本框里,用户可以为字段填写描述性的注释内容。
评论区
+ 写评论