< 返回文档列表

在正式采集之前,可以点击界面右上方的“采集预览”按钮,以查看配置是否正确。采集预览的结果和正式采集的结果是一致的,但是只采集没有存入数据库。

采集预览的页签包括两种:链接信息和数据信息。双击链接条目,可以打开下一层页面。采集预览的页面结构,和配置的模板列表结构是相同的,先预览的是模板一的采集结果,通过双击链接进入下层模板预览。

一.模板预览

可以不点击“采集预览”按钮,在需要预览的模板节点上右键,选择模板预览,可以直接查看当前模板的采集结果。与采集预览的区别是不用一层层点击查看效果。

 

【右键-模板预览】

 

二.预览链接抽取

1.未过滤链接时

当仅输入了采集地址,没有配置模板时,点击“采集预览”可以看到采集源地址能够下载的所有链接。(如果发现需要的链接没有出现,则需要通过编写脚本采集。)

 

【网页全部链接】

2.过滤链接后

可以通过定位过滤,或地址/标题过滤,去掉不需要的链接。可以在采集预览的窗口直接进行地址/标题过滤。每一行点击后都可以通过右键菜单复制链接地址/标题。

 

【预览链接抽取】

 

三.预览数据抽取

创建数据抽取,并为字段赋值之后,可以预览到已经抽取出来的数据。在链接抽取页面,双击某个链接,会打开下面的数据预览页面。大文本将在右侧通过选项卡的形式展示。

或在数据抽取节点,右键选择模板预览查看。 

 

【预览数据抽取】