一.场景简介
1.场景描述:采集顺企网中各城市的企业基本信息。
2.入口网址:http://b2b.11467.com/
3.采集内容:
采集顺企网中全国所有企业的地址、电话、联系人、邮箱及邮编。
二.思路分析
|配置思路概览
|配置步骤
1. 新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
点击【完成】,任务列表里出现本条任务,即为创建成功。
2. 抽取城市分类链接
①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取城市分类链接。在【模板抽取配置】选择【默认模板01】中的【链接抽取】,点击【脚本窗口】,开始写脚本来抽取城市分类链接。
②查看页面源码,打开该页面,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的城市分类链接,这是在右侧出现对应源码内容。说明城市分类链接在【class=boxcontent】节点下。
③在【class=boxcontent】节点下,发现有很多名为dd的节点,每个dd节点的href就是城市分类链接,节点内容就是城市名。
④具体配置脚本如下,配置好脚本后点击右上角【保存】。
⑤效果预览:
点击【采集预览】,即可看到配置效果,如下图所示,已经把城市分类链接抽取出来了。
如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。
3. 抽取行业分类链接
①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取行业分类链接。在【模板抽取配置】中,继续【新建模板2】,并在模板2下新建一个【链接抽取】。
②查看页面源码,打开任意一个城市分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的行业分类链接,这是在右侧出现对应源码内容。说明城市分类链接在第一个【class=box huangyecity t5】节点下。
③在【box huangyecity t5】节点下的【listtxt】节点中,发现有很多名为【li】的节点,在每个【li】节点下又有很多名为【dl】的节点,每个【dl】节点的href即为该城市行业分类链接,节点内容即为行业名称。
④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:
⑤效果预览:
如果采集预览没有出来,可打开前嗅官网,或添加技术支持wx:qianxiu0106进行咨询。
4. 获取翻页链接
①翻页链接需要写脚本来抽取。在【模板抽取配置】中,继续新建一个【新建模板3】,并在模板3下新建一个【链接抽取】。
②在浏览器上打开任意一个行业列表链接,查看翻页链接,会发现翻页链接的规律:
第一页链接:https://www.11467.com/shenzhen/dir/a.htm
第二页链接:https://www.11467.com/shenzhen/dir/a-p2.htm
第三页链接:https://www.11467.com/shenzhen/dir/a-p3.htm
第四页链接:https://www.11467.com/shenzhen/dir/a-p4.htm
翻页规律为:行业链接(即第一页链接)【.htm】左侧部分+【-p】+【翻页数】+【.htm】
③根据以上规律,进行脚本配置,具体如下:
④采集预览,结果如下:
如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。
5. 企业列表链接抽取
①由于内置浏览器无法显示页面内容,所以需要写脚本来抽取企业链接。在【模板抽取配置】中,继续【新建模板4】,并在模板4下新建一个【链接抽取】。
②查看页面源码,打开任意一个行业分类的链接,点击F12,点击指针按钮,如下图所示,用指针按钮选中所需要的企业列表链接,这是在右侧出现对应源码内容。说明企业链接在【companylist】节点下。
③在【companylist】节点下有很多名为【li】的节点,在每个【li】节点下又有很多【class=f_l】的节点,每个【class=f_l】节点下的名为【h4】的节点中,href即为企业链接,title即为企业名称。
④同样选择【脚本窗口】,新建脚本页面,具体配置脚本如下:
⑤采集预览,具体如下:
如果采集预览没有出来,可以打开前嗅官网www.forenose.com,咨询技术支持。
6. 数据抽取:抽取企业基本工商信息
①先根据将要抽取的数据,建好数据表单,打开【采集配置】中的【数据建表】界面,新建一个数据表结构,并且将需要抽取的数据字段添加到数据表中去,如下图所示:
②关联数据表:新建模板5,并在其下新建一个数据抽取,并关联刚才新建的数据表单,然后保存。
③数据抽取配置
字段id:本字段为主键,无需配置。
字段comp_name:需要脚本配置,具体脚本如下
字段comp_addr:需要脚本配置,具体脚本如下
字段comp_tel:需要脚本配置,具体如下
字段comp_peo:需要脚本配置,具体如下
字段comp_phone:需要脚本配置,具体如下
字段comp_mail:需要脚本配置,具体如下
字段comp_num:需要脚本配置,具体如下
④效果预览:
三.采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
①首先要建立采集数据表:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为shunqiwang(注意命名不能用数字和特殊符号),点击【确定】。
创建完成,勾选数据表。
②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
③可以在【数据浏览】中,选择数据表查看采集数据。
四.课后回顾
FindClass(class名,标签类型,开始查找结点):当符合条件的class名称唯一时,使用class名来查找结点。
FindName(标签名,开始查找结点):当查找范围内,符合条件的数据标签唯一时,可以使用标签名称查找标签结点。
GetTextAll(需要获取文本的结点,使用的字符编码):获取该html标签节点及所有子节点的可见文本。
Child:孩子频道节点。
Next:下一频道节点。
Left(分界字符):获得该字符串分解字符左侧所有内内容。