前嗅ForeSpider教程：字段的取值与清洗

社区 >> ForeSpider操作教程

前嗅大数据发表于2020年11月24日18:23最后回复于2020年11月24日18:23

前嗅ForeSpider教程：字段的取值与清洗

1486浏览量

0评论

今天小编为大家带来的教程是：如何在前嗅ForeSpider中进行，字段的取值与清洗。主要内容包括：自动取值字段，取值的两个方法，和字段清洗方式。具体内容如下：

一，自动取值的字段包括哪些

当字段设置为下列采集内容时，系统会自动为字段赋值。

1.网页地址：自动采集网页的URL地址。

2.网页标题：采集网页的标题。即网页<title>中的内容。

3.网页内文字文本：采集整个页面中所有可见的文字文本。

4. 网页内容：采集网页全部文本，包含html标签等，即整个页面的源代码。

5.网页创建时间：文档创建或网页发布的时间。

6.网页更新时间：文档或网页更新的时间。

7.网页获取时间：ForeSpider采集该网页的时间。

8.当前系统时间：数据采集入库的时间。

9.文档数据大小：采集对象的质量大小[单位:字节]。

10.文档名称：采集对象的文件名，如***.html，***.doc。

11.文档后缀：文档的文件名后缀，如html、pdf等。

12.文档视宽：文档的宽[如果是图片数据则为图片的宽]。

13.文档视高：文档的高[如果是图片数据则为图片的高]。

14.文档层级：自动获取从入口页当当前数据页的跳转层级数目。

15.频道ID：采集当前频道的ID。

16.频道名称：采集当前频道的名称。

二，取值方法

1.标准定位

（1）标准定位含义

通过在内置浏览器上，定位有所需数据的区域，为字段取值。大多数情况都选择“标准定位”。

（2）定位方法

①选择：按Ctrl点击页面上相应数据的区域。

②扩大选区：按Shift再次点击页面相应区域。

③确认选区：点击“确认选区”按钮，选区生效。

【标准定位】

2.特征定位

（1）特征定位含义

当所需数据在不同网页的位置不固定，且数据前后具有特征性文字时，用标准定位容易错位，需要使用特征定位。

举例：对于字符串“作者：***”，采集作者名称时，可用“作者：”作为特征来定位。

（2）特征定位的操作方法

① 选择：按Ctrl点击页面上所需数据的区域。

② 识别特征：点击“识别特征”，出现红框，再次点击，红框移动到特征字符串时确认。

③ 点击“确认选区”按钮，选区生效。

（3）特征定位的类型

特征定位分为四种方式：

① 局部关键词

当页面的数据前有特定的关键词，而各个页面的表格内容、各行次序、行数又各不相同时，采用标准定位的方式就会错乱。可以根据表头特征，采集表格后的数据。与全文关键词的区别是，局部关键词只在选定区域的附近采集。

② 全文关键词

根据选定的特征关键词，在全页面采集该特征关键词前后对应的数据，如果出现多个特征关键词，以第一个为主。如果想采集多个的话，可以设定多值。>>查看多值的配置方式

③ 大文本

选定大文本区域后，自动识别各页面的大文本，相比标准定位更加精确。

④ 特殊标签

采集页面中只出现一次的特殊标签，如标题的<h1>标签等。

三，字段清洗方式

在采集数据之前，通过使用字段处理，软件可以自动以某种过滤方式，清洗该字段的字符串数据。通过系统自带的或脚本的方式，可以预先清洗不需要的字符串。

【字段处理】

字段清洗的方式如下：

字段处理脚本是字段处理中选择“脚本处理”后，通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。

作者：前嗅大数据

链接：https://www.jianshu.com/p/401fb638e981

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

收藏收藏
评论
私信私信
感谢感谢
举报举报

评论区

+ 写评论

匿名游客
- 帖子
  0
- 评论
  0
- 收藏
  0
- 0
- 0
- 0
- 积分
- 私信
- 动态

咨询电话(周一至周五9：00-18：00)

前嗅ForeSpider教程：字段的取值与清洗

热门推荐