发表于2018年10月28日17:40最后回复于2018年10月28日17:40

ForeSpider数据采集系统常见问题之数据采集与浏览

1419浏览量

0评论

      相信很多爬虫迷在采集数据时,会遇到各种各样的问题,小编近期总结了关于ForeSpider数据采集系统的热点问题。


     ForeSpider数据采集系统是什么软件?

     对于爬虫迷来说,这款软件一定不陌生,它是一款集数据采集-挖掘-排重-清洗-权重分析-采集入库于一体的大数据采集软件,易操作,易学,上手快。所以,大多数爬虫迷都选择这款软件。

     在我们配置好模板之后,采集数据时会出现各种问题,最常见问题大概有以下2个:

一、采集预览没有链接或数据,是什么原因呢?

(1)查看文档详情:

①需要写脚本:检查文档详情。文档中HTML标签中没有所需的数据信息,是JavaScript脚本生成的。

②被封ip:文档详情404或者***错误等

③需要开启cookie的情况下才能采集数据

(2)浏览器版本:点击运行设置-采集策略--http设置--可以设置模拟浏览器版本

(3)检查配置:

①网址输入的不对

②网址前没加https协议头

③示例地址1和频道入口地址不一致

④没有链接抽取或数据抽取

⑤数据抽取未选择表单

⑥地址过滤时把链接都过滤掉了

⑦没有关联模板等

二、数据采集正常,但数据表中没有数据的原因?

(1)配置有问题。检查采集预览的各层级页面的跳转关系,以及数据抽取是否完全正确。

(2)还没跑到数据页。网站的链接分为链接页和数据页,只有采集到了数据页,才会有数据入库。可以观察采集的页面url地址,或右键复制到浏览器,查看是否已经采集到了数据页面。

(3)本地IP被网站封锁。可以右键复制网址到浏览器,查看网页是否有问题。如网页打不开,或被要求登录、输入验证码等。


被封IP了怎么办?

使用代理ip,ip代理设置--点击启用ip代理的按钮,就可以启动使用IP代理,支持动态和静态IP代理。


(4)数据表的字段有问题。重新检查字段配置,字段名、属性、长度、变量类型、取值类型等。

(5)数据采集里没有建数据表。

(6)数据定位未保存或页面上数据无法定位保存到数据表中。

       关于ForeSpider常见的问题,小编也会不断总结,然后与大家分享,所以,当您在用这款软件的过程中,遇到什么难题一定要和我们说,您的问题可能就是下期的热点问题呦~~~

前嗅大数据——深度大数据专家

前嗅(www.forenose.com)是首个深度大数据专家。

提供数据采集-分析-处理-管理-营销-应用,自主知识产权的全套大数据产品 。


私信

举报