发表于2018年5月28日16:50最后回复于2018年5月28日16:50

数据采集过程中的常见问题

520浏览量

0评论

       经过两周的整理总结,沉淀出来好多数据采集的经验与大家分享。

       前嗅免费模板共享链接:http://www.forenose.com/help/collection/template/cases.html

1.如何进行数据采集?

①下载安装软件后,登录到软件上。

②准备好模板:在前嗅的官网上下载免费的模板或自己配置好的模板

③将下载的官网导入到软件中。

点击文件---点击导入采集文件(将采集文件导入,自己配置的模板请忽略这一步)

④在数据建表中建关联数据表

      选中需要采集模板下的表单---点击创建关联数据表,所创表名不能为汉字,点击确定---在所创数据表前的方框打勾即可关联数据表。详情见下图。

此时在数据浏览中就存在了刚刚建的关联数据表。


⑤进行数据采集。

在需要进行数据采集的模板前打勾--点击允许采集--点击开始按钮即可进行数据采集。详情见下图。

⑥数据预览及导出

选中关联表---点击刷新按钮即可查看数据---点击导出按钮即可导出数据。详情见下图。

多种导出方式:

a.可以将采集到的数据全部导出。

b.可以将数据分割导出,设置特定数目后数据会分别储存放在文件夹中。

c.可以将每个字段所采集到的内容分别导出到不同文件夹,方便查看。



数据导出教程:

http://www.forenose.com/help/guildbook/crawler_new/5-2.html


2.所采集的网站弹验证码是怎么回事?

弹验证码分为四种情况:

①登录需要验证码:登录时只需要一个验证码,所以直接手动填写配置即可。

②多账号登录:每次账号登录都需要验证码,此时应该接第三方打码平台。

③查询时弹验证码:每次点击查询时都会弹出验证码,此时应该接第三方打码平台。

④封IP弹验证码:有些网站被封IP会以验证码的形式展示,此时应该更换IP或者使用代理IP。

      问题及答案已经整理完毕,如果您有什么不懂或者细节点需要详细了解的地方请联系我们:

http://www.forenose.com/about/index/contact.html

前嗅大数据——深度大数据专家

前嗅(www.forenose.com)是首个深度大数据专家。

提供数据采集-分析-处理-管理-营销-应用,自主知识产权的全套大数据产品 。


发布新帖

私信

举报