目录
    采集顺企网企业信息
    视频教程:模板下载:

    一.场景简介

    1.场景描述:采集顺企网中各城市的企业基本信息。

    2.入口网址:http://b2b.11467.com/

    3.采集内容:

    采集顺企网中全国所有企业的地址、电话、联系人、邮箱及邮编。

    二.思路分析

    |配置思路概览

    |配置步骤

    1. 新建采集任务

    选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

    点击【完成】,任务列表里出现本条任务,即为创建成功。

    2. 抽取城市分类链接

    ①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取城市分类链接。在【模板抽取配置】选择【默认模板01】中的【链接抽取】,点击【脚本窗口】,开始写脚本来抽取城市分类链接。

    ②查看页面源码,打开该页面,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的城市分类链接,这时在右侧出现对应源码内容。说明城市分类链接在【class=boxcontent】节点下。

    ③在【class=boxcontent】节点下,发现有很多名为dd的节点,每个dd节点的href就是城市分类链接,节点内容就是城市名。

    ④具体配置脚本如下,配置好脚本后点击右上角【保存】。

    ⑤效果预览:

    点击【采集预览】,即可看到配置效果,如下图所示,已经把城市分类链接抽取出来了。

    如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。

    3. 抽取行业分类链接

    ①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取行业分类链接。在【模板抽取配置】中,继续【新建模板2】,并在模板2下新建一个【链接抽取】。

    ②查看页面源码,打开任意一个城市分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的行业分类链接,这时在右侧出现对应源码内容。说明城市分类链接在第一个【class=box  huangyecity t5】节点下。

    ③在【box  huangyecity t5】节点下的【listtxt】节点中,发现有很多名为【li】的节点,在每个【li】节点下又有很多名为【dl】的节点,每个【dl】节点的href即为该城市行业分类链接,节点内容即为行业名称。

    ④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:

    ⑤效果预览:

    如果采集预览没有出来,可打开前嗅官网,或添加技术支持wx:qianxiu0106进行咨询。

    4. 获取翻页链接

    ①翻页链接需要写脚本来抽取。在【模板抽取配置】中,继续新建一个【新建模板3】,并在模板3下新建一个【链接抽取】。

    ②在浏览器上打开任意一个行业列表链接,查看翻页链接,会发现翻页链接的规律:

    第一页链接:https://www.11467.com/shenzhen/dir/a.htm

    第二页链接:https://www.11467.com/shenzhen/dir/a-p2.htm

    第三页链接:https://www.11467.com/shenzhen/dir/a-p3.htm

    第四页链接:https://www.11467.com/shenzhen/dir/a-p4.htm

    翻页规律为:行业链接(即第一页链接)【.htm】左侧部分+【-p】+【翻页数】+【.htm】

    ③根据以上规律,进行脚本配置,具体如下:

    ④采集预览,结果如下:

    如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。

    5. 企业列表链接抽取

    ①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取企业链接。在【模板抽取配置】中,继续【新建模板4】,并在模板4下新建一个【链接抽取】。

    ②查看页面源码,打开任意一个行业分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的企业列表链接,这时在右侧出现对应源码内容。说明企业链接在【companylist】节点下。

    ③在【companylist】节点下有很多名为【li】的节点,在每个【li】节点下又有很多【class=f_l】的节点,每个【class=f_l】节点下的名为【h4】的节点中,href即为企业链接,title即为企业名称。

    ④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:

    ⑤采集预览,具体如下:

    如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。

    6. 数据抽取:抽取企业基本工商信息

    ①先根据将要抽取的数据,建好数据表单,打开【采集配置】中的【数据建表】界面,新建一个数据表结构,并且将需要抽取的数据字段添加到数据表中去,如下图所示:

    ②关联数据表:新建模板5,并在其下新建一个数据抽取,并关联刚才新建的数据表单,然后保存。

    ③数据抽取配置

    字段id:本字段为主键,无需配置。

    字段comp_name:需要脚本配置,具体脚本如下

    字段comp_addr:需要脚本配置,具体脚本如下

    字段comp_tel:需要脚本配置,具体如下

    字段comp_peo:需要脚本配置,具体如下

    字段comp_phone:需要脚本配置,具体如下

    字段comp_mail:需要脚本配置,具体如下

    字段comp_num:需要脚本配置,具体如下

    ④效果预览:

    三.采集步骤

    模板配置完成,采集预览没有问题后,可以进行数据采集。

    ①首先要建立采集数据表:

    选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为shunqiwang(注意命名不能用数字和特殊符号),点击【确定】。

    创建完成,勾选数据表。

    ②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

    ③可以在【数据浏览】中,选择数据表查看采集数据。

    四.课后回顾

    FindClass(class名,标签类型,开始查找结点):当符合条件的class名称唯一时,使用class名来查找结点。

    FindName(标签名,开始查找结点):当查找范围内,符合条件的数据标签唯一时,可以使用标签名称查找标签结点。

    GetTextAll(需要获取文本的结点,使用的字符编码):获取该html标签节点及所有子节点的可见文本。

    Child:孩子频道节点。

    Next:下一频道节点。

    Left(分界字符):获得该字符串分解字符左侧所有内容。