海量网站采集

Massive Web Site Collection

  • 采集海量网站信息

    01采集注意事项

    大批量的采集网站,需要保证网站同属于一类,如“招标类”、“金融类”。这种情况需要通过挖掘采集数据,挖掘规则难度较大, 暂时还未用户开放,如有这方面的采集需求,可以联系客服qq:2779623375或微信:qianxiu0106

    02可以获取的内容

    1、批量采集同类型网页中的内容数据; 2、可以通过网页类型,批量过滤并采集出某个类型的网页; 3、可以通过主题过滤,批量判断网站内容的情感正负向等。

    03配置流程

    第一步:网站类型相同时,可以将所有网站链接放到数据库中,通过爬虫的高级功能“外部数据源”调用 ,如下图所示:

    03配置流程

    第二步:在软件里进行链接抽取及数据抽取,对需要采集的字段进行挖掘处理。

    03配置流程

    第三步:采集出来的数据如图所示: