前嗅大数据发表于2020年3月18日14:34最后回复于2020年3月18日14:34

ForeSpider不为人知的一面

575浏览量

0评论

本文简述了关于前嗅ForeSpider爬虫中一些不为人知的知识点,包括高级功能,运行设置以及隐藏在模板配置中的一些神奇又强大的功能。

一、运行设置

运行设置中所有设置均是全局的设置。不单单对应一个频道。

1. 采集速度

采集速度是指爬虫爬取网页的速度,一般在购买代理IP之后才会使用到,但是如果网站防爬不强,也可以更改线程数目,以达到快速采集的目的。

①线程数目:线程数目越大,采集速度越快。

②采集间隔:采集间隔为隔多少秒采集一次,是防止被封IP的时候设置的。

2. 采集策略

采集策略是相对于日志而言的。一般在任务没有跑完,或者采集新增任务时候才会用到。

链接页面和数据页面的区别?

链接页面顾名思义是只有链接的页面,而数据页面是指只要有数据抽取的全部页面。

3. 任务装载

任务装载一般在两个频道一起采集的时候才会用到。

①装载顺序:

负载均衡:两个频道一起采集。

顺序优先:把一个频道先采集完,再采集另一个频道。

②装载方式:

同步:所有链接页加载完,再采数据页。

异步:加载一条链接,采集一条数据。

4. 网络超时

网络超时一般是指请求网页的过程中,等待接收及发送的时间,如果在这个时间内没有接收完成或者发送完成,需要重试的次数。

5. http设置

有些网站可能在某个特定的浏览器里面才可以可视化的配置,所以如果示例地址出不来,可以更改模拟浏览器版本试试看。

重定向:当网站发现是爬虫之后,可能会重定向到其他页面,这个时候可以试试调高重定向重试次数,来访问网站。

6. 加载设置

当页面是使用JavaScript写的,不解析无法采集的时候,可以进行选择。

完全禁用:全部都不解析,不采集。

完全不禁用:全部都解析,采集。

不完全禁用:直解析标签,不解析外联的。

SLL协议:Http/Https协议。有两条通道,禁用了之后只走不加密的通道,加快打开网站的速度。

7. 任务模式

一般选成手动开始,自动停止就可以。

8. 任务定时

需要定时启动及结束任务时可以设置。

9. 过滤设置

需要过滤大、小文件或者文件类型时使用。

二、高级功能

1. OAuth认证

OAuth认证是一种代理认证的方式,通过用户Key,用户secret,授权Key,授权secret四个参数进行认证,必须四个参数全部匹配上,才可以确定为合法。

2. 采集映射

采集映射是可以在频道建跳转的,为频道之间的相关关系。配置好一个频道之后,可以在频道之间进行跳转。

①采集映射规则:通过勾选相关规则,按照规则进行映射。

②映射列表:可以在映射列表中选择映射的频道。

采集映射和模板继承有什么关系呢?

模板继承必须有父亲节点和孩子节点,必须为孩子节点继承父亲节点。不能在频道之间跳转。

3. 独立控制

如没有打开独立存储功能,所有相同表结构的数据会存储在同一张数据表中(注:表单为数据表的表结构)。开启独立控制后,爬虫的表单会自动创建表关联,并对数据进行分别存储。

独立存储命名:“频道ID 表单名”。

4. 自动化控制

自动化控制为某频道的独立控制,包括自动扫描间隔、时间过滤开始时间,时间过滤的结束时间。

时间过滤:针对的是只想采集最新数据的用户,可以精确地控制采集时间。

5. 关联变量

关联变量中可以放字符串等,该变量可以动态改变。

三、其它神奇功能

在ForeSpider中,还有许多不为人知的神奇而强大的功能,大家发现了没?

1. 全局脚本

全局脚本是所有频道共有的脚本,需要写全局脚本的时候注意安全性。

2. 网页编码

当模拟浏览器无法显示网页时,可以检查一下是不是网页编码的问题,可以通过改变网页编码(gbk,utf8),显示当前页面。

3. 默认数据抽取

      插入:多一条算一条插入,一般默认为插入。

更新:数据表中已经存在数据,需要采集新数据的时候,可以选择更新。

追加:统计某条数据,出现的次数的时候,不需要每一条都入库,选择之后可以只入库一次,在数据库中,可以统计该条数据出现的次数。

更新失败插入:数据表里已经存在数据,但是更新失败了,可以选择更新失败插入,这个时候就可以再次入库了。

4. 快速建表

在数据抽取页面下的“创建表单”按钮,点击之后就可以进行快速建表了。

这些隐秘而伟大功能什么时候才会用到,大家学会了吗?有问题欢迎各种方式的咨询哦~

前嗅大数据——深度大数据专家

前嗅(www.forenose.com)是首个深度大数据专家。

提供数据采集-分析-处理-管理-营销-应用,

自主知识产权的全套大数据产品。

————————————————

版权声明:本文为CSDN博主「雨霖铃儿」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u011231755/article/details/80844090


私信

举报