前嗅网络发表于2021年13月22日12:12最后回复于2021年13月22日12:12

采集顺企网企业信息实战教程

827浏览量

0评论

一.场景简介

场景描述】采集顺企网中各城市的企业工商信息。

入口网址】http://b2b.11467.com/

 


采集内容

本次采集的数据为顺企网中各城市分类中,企业的基本信息。

二.思路分析

|配置思路概览

|配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

点击【完成】,任务列表里出现本条任务,即为创建成功。


2. 抽取城市分类链接

①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取城市分类链接。在【模板抽取配置】选择【默认模板01】中的【链接抽取】,点击【脚本窗口】,开始写脚本来抽取城市分类链接。

②查看页面源码,打开该页面,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的城市分类链接,这是在右侧出现对应源码内容。说明城市分类链接在【class=boxcontent】节点下。

③在【class=boxcontent】节点下,发现有很多名为dd的节点,每个dd节点的href就是城市分类链接,节点内容就是城市名。

④具体配置脚本如下,配置好脚本后点击右上角【保存】。

⑤效果预览:

点击【采集预览】,即可看到配置效果,如下图所示,已经把城市分类链接抽取出来了。

如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。

3. 抽取行业分类链接

①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取行业分类链接。在【模板抽取配置】中,继续【新建模板2】,并在模板2下新建一个【链接抽取】。

②查看页面源码,打开任意一个城市分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的行业分类链接,这是在右侧出现对应源码内容。说明城市分类链接在第一个【class=box  huangyecity t5】节点下。

③在【box  huangyecity t5】节点下的【listtxt】节点中,发现有很多名为【li】的节点,在每个【li】节点下又有很多名为【dl】的节点,每个【dl】节点的href即为该城市行业分类链接,节点内容即为行业名称。

④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:

⑤效果预览:

如果采集预览没有出来,可打开前嗅官网,或添加技术支持wx:qianxiu0106进行咨询。

4. 获取翻页链接

①翻页链接需要写脚本来抽取。在【模板抽取配置】中,继续新建一个【新建模板3】,并在模板3下新建一个【链接抽取】。

②在浏览器上打开任意一个行业列表链接,查看翻页链接,会发现翻页链接的规律:

第一页链接:https://www.11467.com/shenzhen/dir/a.htm

第二页链接:https://www.11467.com/shenzhen/dir/a-p2.htm

第三页链接:https://www.11467.com/shenzhen/dir/a-p3.htm

第四页链接:https://www.11467.com/shenzhen/dir/a-p4.htm

翻页规律为:行业链接(即第一页链接)【.htm】左侧部分+-p+【翻页数】+.htm

③根据以上规律,进行脚本配置,具体如下:

④采集预览,结果如下:

如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。

5. 企业列表链接抽取

①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取企业链接。在【模板抽取配置】中,继续【新建模板4】,并在模板4下新建一个【链接抽取】。

②查看页面源码,打开任意一个行业分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的企业列表链接,这是在右侧出现对应源码内容。说明企业链接在【companylist】节点下。

③在【companylist】节点下有很多名为【li】的节点,在每个【li】节点下又有很多【class=f_l】的节点,每个【class=f_l】节点下的名为【h4】的写一个节点中,href即为企业链接,title即为企业名称。

④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:

⑤采集预览,具体如下:

如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。


6. 数据抽取:抽取企业基本工商信息

①先根据将要抽取的数据,建好数据表单,打开【采集配置】中的【数据建表】界面,新建一个数据表结构,并且将需要抽取的数据字段添加到数据表中去,如下图所示:

②关联数据表:新建模板5,并在其下新建一个数据抽取,并关联刚才新建的数据表单,然后保存。

③数据抽取配置

字段id:本字段为主键,无需配置。

字段comp_name:需要脚本配置,具体脚本如下

字段comp_addr:需要脚本配置,具体脚本如下

字段comp_tel:需要脚本配置,具体如下

字段comp_peo:需要脚本配置,具体如下

字段comp_phone:需要脚本配置,具体如下

字段comp_mail:需要脚本配置,具体如下

字段comp_num:需要脚本配置,具体如下

④效果预览:


三.采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为shunqiwang(注意命名不能用数字和特殊符号),点击【确定】。

创建完成,勾选数据表。

②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③可以在【数据浏览】中,选择数据表查看采集数据。


四.课后回顾

FindClass(class名,标签类型,开始查找结点):当符合条件的class名称唯一时,使用class名来查找结点。

FindName(标签名,开始查找结点):当查找范围内,符合条件的数据标签唯一时,可以使用标签名称查找标签结点。

GetTextAll(需要获取文本的结点,使用的字符编码):获取该html标签节点及所有子节点的可见文本。

Child:孩子频道节点。

Next:下一频道节点。

Left(分界字符):获得该字符串分解字符左侧所有内内容。


私信

举报