< 返回文档列表
3.1.1 创建新任务
视频教程:模板下载:

通常一个采集源对应着一个任务,如采集人民网,就创建一个任务叫人民网。

大量网站结构相似的采集源,可以放在同一个任务中,例如要同时采集100个结构相似网站,可以把网址粘到同一个任务的采集地址中

 

【新建任务】

一.创建新任务

1.添加任务

点击任务列表右侧+”,新建一个任务。也可以通过右键或文件菜单,导入一个任务模板。

 

【添加任务】

2.填写采集地址

在弹窗里填写采集地址和任务名称。

 

【填写采集地址】

采集地址指的是采集对象的入口地址,即为该网页链接(url地址)。以采集淘宝为例:

①采集整个淘宝网全部商品的信息,淘宝网首页链接就是入口地址。

只采集“女装”类别的商品信息,“女装”首页链接就是入口地址。

③只采集某商品的评论信息,该商品的链接地址就是入口地址。

大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。

3.设置采集类型、关键词、登录

采集类型分为两种:

默认(html):采集网站APP数据。

本地文件目录:采集本地文件目录的html和xml数据

当采集的网站需要关键词检索、登录后才能采集时,需要勾选相应设置。

4.选择当前页面抽取内容

创建新的任务之后,点击“下一步”,选择页面需要抽取的内容。

 

【选择页面抽取内容】

根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。

①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。

②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。

例如:

需要采集新闻的正文数据,而当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接才能进入的,所以本页面需要选择“抽取链接”中的“链接列表”。

点击“完成”,软件自动创建对应的抽取内容的模板。

 

【抽取模板】

软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。如需继续添加抽取方式,可以自行手动进行添加。如下图所示:

 

【添加抽取模板】

 

二.任务属性配置

关于>>登录网站>>关键词采集>>Cookie,在后文有详细介绍。

 

【任务属性配置】

1.浏览器采集

当页面均由JS生成时,采集效果不理想的情况下,可以尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,采集效率较低,但是对JS语法的支持更加全面。

例如:进行采集预览时出现如下图所示的提示框时,大概率上是由于网页由大量JS生成,采集难度较大,此时便可选用浏览器采集的方式。

 

【采集预览结果】

2.启用JavaScript解析

对于有些网页的JavaScript只用于美观效果的而不影响数据显示的,关闭JavaScript不影响采集数据时,关闭可以加快采集速度。

三.对任务的操作

在任务列表点击右键,弹出菜单,可以对任务进行一系列操作。

 

【任务列表右键菜单】

按照操作的类型,包括以下几类操作:

①修改名称:修改任务名称。

②添加任务:添加一个新的任务。

③剪切复制粘贴任务:剪切、复制、粘贴任务或子任务。

④删除任务:删除一个或一组任务。

⑤导入任务:导入任务或导入为子任务。

⑥导出任务:导出当前节点任务或导出其子任务。