前嗅大数据发表于2020年11月18日14:52最后回复于2020年11月18日14:52

ForeSpider数据采集软件之链接抽取

598浏览量

0评论

自从来到前嗅,小编从一个爬虫小白到现在能够熟练的采集各种网站各种数据真的是有很大的成长,当然,成长过程中肯定少不了踩坑(很多网站都有防爬措施),为了让各位用户能够更熟练的使用爬虫软件,小编决定定期在公众号写一些配置爬虫的经验和小技巧,以及遇到坑的时候的解决方法。

本次案例使用的是大众点评网,要抽取下面的翻页链接。

图片描述

第一步先看每一页的链接地址有没有规律。

图片描述图片描述

可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本:

图片描述

图中的六行代码,是链接抽取中必不可少的部分,这简单的六行就是一个完整的链接抽取脚本。下面是每一行的解释:

第一行代码:定义一个url类的变量u。

第二行代码:u.urlname是网页的链接地址,为其赋值。

第三行代码:u.tmplid是这个链接抽取所要关联的模板id,这里是翻页,所以关联自身模板。

第四行代码:这个链接抽取所对应的频道id。

第五行代码:u.title是链接标题,为其赋值。

第六行代码:将所拼接的链接添加到最后的结果中。

上面的代码取到的只是第二页的链接,下面给大家放完整的内容:

图片描述图片描述

通过FindClass的方式,从源码中得到总页数,然后使用for循环拼接每一页的链接。一共才用了12行(其中还包含了两行注释)就得到了自己想要的链接。

链接抽取是大规模采集网站数据的一个重要的步骤,下期小编准备在本期案例的基础上加上数据抽取,使它变成一个完整的爬虫采集模板,能够正常的采集数据。需要的朋友可以点击上方关注公众号,一定有你需要的内容。


私信

举报