3.6.1 字段取值

核心产品

数据采集

自然语言处理

数据分析

大数据配套服务

数据治理

大数据引擎

ForeSpider数据采集引擎

ForeChart可视化图表

大数据应用

AI舆情监测系统

预荐云数据系统

知析智能分析报告

消费品分析报告

行业分析报告

跨境电商分析报告

大数据底层技术

国产化ForeLib分析型数据库

国产化ForeServer服务器软件

国产化KSP大数据开发语言

ForeSpider软件

ForeSpider数据采集引擎

ForeSpider下载

ForeSpider功能列表

ForeSpider产品优势

采集服务

定制采集模板

定制数据采集方案

服务器集群采集

AI自动配置成批网站

采集某类特征的数据

采集策略场景化分析

软件学习

图文教程

视频教程

脚本教程

采集模板下载

新闻媒体类

电商平台类

企业信息类

智能分析

多语言全文检索

用户画像分析

多语言分词

评价内容解析

典型意见归纳

智能文本分类

特征提取

联系方式提取

特征信息提取

实体词提取

智能计算

智能推荐引擎

国产化ForeLib分析型数据库

国产化ForeServer服务器软件

国产化KSP大数据开发语言

数据可视化

ForeChart数据可视化引擎

企业关系图谱

数据分析应用

AI舆情预警系统

知析智能分析报告

消费品分析报告

行业分析报告

跨境电商报告

定制智能分析报告

预荐云数据系统

行业竞品分析

电商快消品分析

搜索引擎排名分析

系统集成服务

系统定制开发

营销方案定制

代码工具

时间戳转换工具

进制转换工具转码工具

px转换vw

颜色转换

Json格式化工具

Base64转码

编码转换

邮箱加密

Excel/csv数据转json格式工具

压缩和格式化工具

推算日期及计算日期差

密码生成器

个人所得税计算

去除重复项

字数统计工具

html转换成其它语言

面积单位换算

摩斯密码翻译器

vw和px之间的批量转换

正则表达式在线代码生成工具

智能数据中台

元数据管理

数据标准管理

主数据管理

数据质量管理

数据资产管理

数据安全管理

数据生命周期管理

行业解决方案

通用解决方案

数据解决方案

金融方案

风控反欺诈

股票量化交易

银行智控系统

制造业&物流

企业数字化

企业数据治理

医疗方案

政务方案

警务智能决策

政务数据安全

实时监测

舆情监测系统

产品/竞品监测系统

股票监测系统

政策监测系统

招投标监测系统

智能分析

行业全息分析

地理信息分析

数据智能挖掘

主题自动分类

挖掘特征信息

全网自动采集

海量网站自动配置

全网挖掘特定信息

场景智慧采集

商品与评论全览

纵观金融财经动态

企业工商全方位掌握

精准获取客户信息

实时掌控舆情信息

竞品情报实时获取

搜索引擎全网采集

主题识别采集

识别标题语义采集

识别正文主题采集

(不)含特定关键词采集

微信登录
账号登录
手机号登录

扫码立即登录

忘记密码？没有账号立即注册

忘记密码？没有账号立即注册

大数据产品

消费品分析报告

行业分析报告

跨境电商报告

聊天机器人

联系我们

咨询电话(周一至周五9：00-18：00)

022-2345 2937

185 2247 0110

business@forenose.com

QQ：2779623375

用户QQ群3：606835039

用户QQ群4：795287153

订阅号

服务号

客服微信:qianxiu0106

ForeSpider

数据采集引擎

教程列表

目录

3.6.1 字段取值

视频教程：模板下载：

字段从网页上取值，有几种情况：

1. 自动取值：有些采集类型可以自动获取网页上的内容。

2. 标准定位：通过在网页上定位选区，获取数据。

3. 特征定位：根据网页文本的特征定位选区，获取数据。

4. 模板取值：部分数据在另一个网页上，想存储在同一张表中。

5. 脚本取值：通过编写脚本获取数据。

一．自动取值的字段类型

当采集内容设置为以下内容时，系统会自动为字段赋值，无需额外操作。

采集内容大类	采集内容小类	说明
可见文本	网页内文字文本	采集整个页面中所有可见的文字文本。
主键	网页主键
主键	自增ID主键
源码/图片/文件	网页全部内容	采集网页全部文本，包含html标签等，即整个页面的源代码。
网页信息	网页地址	自动采集网页的URL地址。
	网页标题	采集网页的标题。即网页<title>中的内容。
	文档数据大小	采集对象的质量大小[单位:字节]。
	文档名称	当前文档(文件)的名称
	文档后缀	文档的文件名后缀
	文档后缀类型	文档后缀的枚举类型
	文档视宽	文档的宽[如果是图片数据则为图片的宽]
	文档视高	文档的高[如果是图片数据则为图片的高]
	文档层级	文档被采集时的链接深度(层级)
	原始网页地址	当页面重定向以后，依然保存重定向以前的地址
时间信息	网页创建时间	文档创建或网页发布的时间。
	网页更新时间	文档或网页更新的时间。
	网页获取时间	ForeSpider采集该网页的时间。
	当前系统时间	数据采集入库的时间。
采集任务信息	任务ID	采集当前任务的ID。
采集任务信息	任务名称	采集当前任务的名称。

二．标准定位取值

1.标准定位含义

通过在内置浏览器上，定位有所需数据的区域，为字段取值。大多数情况都选择“标准定位”。

2.定位方法

①选择：按Ctrl点击页面上相应数据的区域。

②扩大选区：按Shift再次点击页面相应区域。

③确认选区：点击“确认选区”按钮，选区生效。

【标准定位】

三．特征定位取值

1.特征定位含义

当所需数据在不同网页的位置不固定，且数据前后具有特征性文字时，用标准定位容易错位，需要使用特征定位。

举例：对于字符串“作者：***”，采集作者名称时，可用“作者：”作为特征来定位。

2.操作方法

①选择：按Ctrl点击页面上所需数据的区域。

②识别特征：点击“识别特征”，出现红框，再次点击，红框移动到特征字符串时确认。

【特征定位】

③点击“确认选区”按钮，选区生效。

3.特征定位的类型

特征定位分为四种方式：

（1）局部关键词

当页面的数据前有特定的关键词，而各个页面的表格内容、各行次序、行数又各不相同时，采用标准定位的方式就会错乱。可以根据表头特征，采集表格后的数据。与全文关键词的区别是，局部关键词只在选定区域的附近采集。

（2）全文关键词

根据选定的特征关键词，在全页面采集该特征关键词前后对应的数据，如果出现多个特征关键词，以第一个为主。如果想采集多个的话，可以设定多值。>>查看多值的配置方式

（3）大文本

选定大文本区域后，自动识别各页面的大文本，相比标准定位更加精确。

（4）特殊标签

采集页面中只出现一次的特殊标签，如标题的<h1>标签等。

四．模板取值

当前字段的取值数据不在当前页面，在另一页面时，需要将该字段的取值类型选择为“模板取值”。用另外一个模板的内容来填充该字段的值。（注意：模板取值的id不能填自身）

以某网站为例，从“联系我们”界面进行字段定位取值获取数据，但content字段需在“公司介绍”界面进行取值。

【模板取值示例】

①添加字段时，将content字段配置为模板取值。

【模板取值字段设置】

②新建模板，示例地址为“公司介绍”的地址。

【新建模板】

③新建表单和字段，字段名为content与上个模板中字段名相同。

【新建表单字段】

④进行字段定位取值后，右键点击进行模板预览。

【模板预览1】

⑤由于页面上是个<a>链接，属性为href，取值的关联模板的ID为2。因此，在此处填写“href=[2]”，完成了该字段的配置后确认“公司介绍”页面的选区。

【模板取值配置】

⑥进行模板预览。

【模板预览2】