目录
    4.7.1 自动获取网页信息的情况
    视频教程:模板下载:

    字段从网页上取值,有几种情况:

    ①自动取值:有些采集类型可以自动获取网页上的内容。

    ②定位取值:通过在网页上定位选区,获取数据。包括标准定位和特征定位。

    ③模板取值:部分数据在另一个网页上,想存储在同一张表中。

    ④脚本取值:通过编写脚本获取数据。

    当采集内容设置为以下内容时,系统会自动为字段赋值,无需额外操作。


    采集内容大类

    采集内容小类

    说明

    空值/常量

    常量

    设置字段为某一个值/文本

    选区内可见文本

    网页内文字文本

    采集整个页面中所有可见的文字文本。

    主键

    网页主键

    网页唯一标识

    自增ID主键

    该字段会按照自增顺序自动排序

    源码/图片/文件

    网页全部内容

    采集网页全部文本,包含html标签等,即整个页面的源代码。

    网页信息

    网页地址

    自动采集网页的URL地址。

    网页标题

    采集网页的标题。即网页<title>中的内容。

    文档数据大小

    采集对象的质量大小[单位:字节]。

    文档名称

    当前文档(文件)的名称

    文档后缀

    文档的文件名后缀

    文档后缀类型

    文档后缀的枚举类型

    文档视宽

    文档的宽[如果是图片数据则为图片的宽]

    文档视高

    文档的[如果是图片数据则为图片的]

    文档层级

    文档被采集时的链接深度(层级)

    原始网页地址

    当页面重定向以后,依然保存重定向以前的地址

    时间信息

    网页创建时间

    文档创建或网页发布的时间。

    网页更新时间

    文档或网页更新的时间。

    网页获取时间

    ForeSpider采集该网页的时间。

    当前系统时间

    数据采集入库的时间。

    采集任务信息

    任务ID

    采集当前任务ID。

    任务名称

    采集当前任务的名称。