< 返回文档列表
3.3.1 创建链接抽取
noInitnoInit

层模板都可以创建多个抽取。例如抽取该页面的链接列表和翻页,则创建两个链接抽取。

 

【添加链接抽取】

一.关联模板

“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。

在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。

1.关联方式

①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。

②手动关联:用户可在链接抽取节点进行手动关联。

 

【关联模板】

2.关联模板的实例

①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml

 

【模板一地址】

②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。

 

【模板二地址】

③所以此时模板一中的链接抽取,需要关联模板二。

 

【模板关联】

 

二.预览过滤效果

添加链接抽取后,点击软件右上角的“采集预览”按钮,弹出采集预览结果。在没有进行过滤的情况下,会采集到该地址下所有的链接信息。(如果没有创建链接抽取,就无法看到预览结果)

 

【采集预览】

通过采集预览可以帮助判断:

①该频道是否可以通过可视化采集。

如果没有任何预览结果,或者在浏览器上有某些链接而这里没有,说明这些链接可能是由JavaScript生成的,需要写脚本才能采集。

②需要过滤哪些链接。

网站上会有一些与采集需求无关的链接,如“收藏本页”、“登录”等,为了提升采集的速度和精度,需要过滤无关的链接。通过使用下文介绍的过滤方式来过滤链接。

 

三.高级设置

1.链接生成:可通过规则自动识别链接。

2.链接类型

普通网页链接:href类型,适用于超链接、按钮、CSS文件等。

图片、视频等:src类型适用于图片/视频/音频/资源文件/JS文件等。

自定义:Iframe和xml等类型

3.链接块:可自动识别列表链接块、翻页链接块、子栏目链接块、选项卡链接块等。并可通过匹配分类器,自动筛选主题过滤。