前嗅大数据发表于2020年10月11日17:32最后回复于2020年10月11日17:32
前嗅ForeSpider教程:链接抽取
578浏览量
0评论
今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:
一,如何关联模板
“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。
在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。
关联方式如下:
①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。
②手动关联:用户可在链接抽取节点进行手动关联。
【关联模板】
二,如何判断模板关联是否正确
①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml
【关联模板】
②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。
【模板一地址】
③所以此时模板一中的链接抽取,需要关联模板二。
【模板二地址】
三,如何选择链接类型
链接类型可分为href和src两种。
1. href
默认选项。适用于超链接、按钮、CSS文件。
2. src
适用于图片/视频/音频/资源文件/JS文件等。
四,过滤方法
过滤方式一:智能过滤
智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用方式三:地址/标题过滤。
操作方法如下:
①在链接抽取节点,按Ctrl 鼠标左键,在内置浏览器上点击所需获取的链接,点击“智能过滤”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。
过滤方式二:定位过滤
定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。
操作方法如下:
①在链接抽取节点,按Ctrl在内置浏览器上点击(扩大选区按Shift),选中所需链接的区域,点击“确认选区”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。
过滤方式三:地址/标题过滤
为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。
(1)地址过滤:通过url地址的规律,过滤无关链接。
(2)标题过滤:通过链接标题的规律,过滤无关链接。
① 地址(标题)过滤节点的配置内容
② 过滤串规则说明
点赞
收藏
分享
雨霖铃儿
发布了152 篇原创文章 · 获赞 42 · 访问量 15万
私信
关注
展开阅读全文
————————————————
版权声明:本文为CSDN博主「雨霖铃儿」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011231755/article/details/87884062
- ·ForeSpider入门教程 26272
- ·ForeSpider数据采集系统功能说明 17163
- ·软件用途 16584
- ·软件功能 16428
- ·ForeSpider数据采集特点 15667
- ·创建表单的视频教程 15591
- ·采集策略相关概念 15434
- ·频道相关概念 15198
- ·表单相关概念 14831
- ·免费代理IP网址大全 14178
评论区
+ 写评论