通常一个采集源对应着一个任务,如采集人民网,就创建一个任务叫人民网。
大量网站结构相似的采集源,可以放在同一个任务中,例如要同时采集100个结构相似网站,可以把网址粘到同一个任务的采集地址中。
【新建任务】
1.添加任务
点击任务列表右侧“”,新建一个任务。也可以通过右键或文件菜单,导入一个任务模板。
【添加任务】
2.填写采集地址
在弹窗里填写采集地址和任务名称。
【填写采集地址】
采集地址指的是采集对象的入口地址,即为该网页链接(url地址)。以采集淘宝为例:
①采集整个淘宝网全部商品的信息,淘宝网首页链接就是入口地址。
②只采集“女装”类别的商品信息,“女装”首页链接就是入口地址。
③只采集某商品的评论信息,该商品的链接地址就是入口地址。
大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。
3.设置采集类型、关键词、登录
采集类型分为两种:
①默认(html):采集网站、APP数据时选用。
②本地文件目录:采集本地文件目录的html和xml数据时选用。
③当采集的网站需要关键词检索时,勾选【关键词采集】。
【选择关键词采集】
④当采集的网站需要登录后才能采集时,需要勾选手动/自动登录方式。
【登录网站】
4.选择当前页面抽取内容
创建新的任务之后,点击“下一步”,选择页面需要抽取的内容。
【选择页面抽取内容】
根据页面内容,确定每层模板的抽取目标,每层模板都可以创建多个抽取。
①抽取链接:需要抽取页面上的链接时,选择创建链接抽取。如抽取该页面的链接列表和翻页,则创建两个链接抽取。
【链接抽取】
②抽取数据:需要抽取页面上的数据时,选择创建数据抽取。
【数据抽取】
例如:
需要采集新闻的正文数据,而当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接才能进入的,所以本页面需要选择“抽取链接”中的“链接列表”。
【抽取链接】
点击“完成”,软件自动创建对应的抽取内容的模板。
【抽取模板】
软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。如需继续添加抽取方式,可以自行手动进行添加。如下图所示:
【添加抽取模板】