目录
    3.1.4 设置采集内容
    视频教程:模板下载:

    指该字段需要网页上获取的数据内容,在建表时预设,可以重复使用该属性也可以在字段配置时单独设置。

    当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。

    当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

    序号

    采集内容

    采集子内容

    描述

    1

    空值/常量

    空值/常量

    设置字段为某一个值/文本

    2

    选区内可见文本

    选区内全部文本

    最常用的类型。点击Ctrl选择绿框后,采集选区里的全部内容

    选区最外层节点文本

    只取选区内的最外层节点,不取其子节点的内容

    选区最外两层节点文本

    只取选区内最外层节点和其第一级子节点内容

    网页内文字文本

    采集整个页面中所有可见的文字文本不包含源码

    3

    主键

    网页主键

    网页唯一标识

    自增ID主键

    该字段会按照自增顺序自动排序

    4

    选区节点

    选区节点名称

    选区内html代码中该节点标签名称

    选区节点属性值

    采集选区内该节点的属性值。需要在“标签属性”填写该节点标签的属性,多个属性用“;”隔开

    5

    网页代码/图片等资源数据

    数据流文件

    采集图片、视音频、文件等

    图片

    采集页面中位置固定的图片位置不固定选择“数据流文件”

    资源数据(pdf、doc...)

    采集页面中位置固定的资源文件。位置不固定选择“数据流文件”

    网页全部内容

    采集网页全部文本,包含html标签等,即整个页面的源代码

    选区网页源码(包含当前标签)

    采集网页内所有选区的源代码(包含当前标签)

    选区网页内源码

    采集网页内所有选区的源代码

    6

    网页信息

    网页地址

    自动采集网页的URL地址

    网页标题

    采集网页的标题。即网页<title>中的内容

    文档数据大小

    采集对象的质量大小[单位:字节]

    文档名称

    采集对象的文件名,如***.html,***.doc

    文档后缀

    文档的文件名后缀,如html、pdf等

    文档后缀类型

    文档后缀所对应的文档类型:如****.pdf是图片

    文档视高

    文档的[如果是图片数据则为图片的]

    文档视宽

    文档的宽[如果是图片数据则为图片的宽]

    文档层级

    自动获取从入口页当当前数据页的跳转层级数目

    原始网页地址(基地址)

    当网页的网址重定向时,可以获取到重定向之前的原始网址。

    7

    时间信息

    网页创建时间

    文档创建或网页发布的时间

    网页更新时间

    文档或网页更新的时间

    网页获取时间

    ForeSpider采集该网页的时间

    当前系统时间

    数据采集入库的时间

    8

    采集任务信息

    任务ID

    采集当前频道的ID

    任务名称

    采集当前频道的名称

    任务KEY

    外部数据源采集的关联ID或者关键词采集与关键词相关的KEY

    任务VALUE

    外部数据源采集关联的数据或者关键词采集的关键词

    9

    分类信息取值

    挖掘规则取值

    通过分类器进行主题分类时,选取的自动赋值类型。

    分类ID

    分类名称

    分类路径

    分类识别词/规则

    文档分类ID

    文档分类名称

    文档分类路径

    文档分类识别词/规则

    10

    高级取值

    脚本取值

    由用户自己编写脚本为字段取值时,选择该类型。

    模板取值

    当前字段的所需数据不在当前页面在另一页面时,选择模板取值,可以用另外一个模板的内容来填充该字段的值。

    事件取值

    预留功能

    示例:<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>

    1选区内全部文本

    采集选区全部标签下的内容“百度搜索引擎”

    2选区最外层节点文本

    采集最外层<ul>节点的文本,不采集<li>和<a>文本此时采集到的内容为:“百度”。

    3选区最外两层节点文本

    只采集<ul><li>的内容,不采集<a>的内容此时采集到的内容为:“百度搜索”。