发表于2019年1月28日09:20最后回复于2019年1月28日09:20

黄页88

405浏览量

0评论

以黄页88(http://b2b.huangye88.com/shanghai/fuwu/)为例,采集当前列表页新闻的正文数据:


第一步:新建任务

①点击左上角“加号”新建任务,如图1:

【图1】

②在弹窗里填写采集地址,任务名称,如图2:

【图2】

③点击下一步,选择进行数据抽取还是链接抽取,本次采集当前列表页联系方式链接,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链接,翻页选择普通翻页,如图3:

【图3】

④完成后模板抽取配置列表有两个模板,默认模板和链接列表。默认模板下自动生成两个链接抽取,一个为链接列表抽取,已与模板“链接列表”关联,一个为普通翻页链接,此链接已与默认模板自身关联,如图4。

【图4】

 


第二步:通过地址过滤,得到所需的联系方式链接。

①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到联系方式链接。找到所需要的链接,右击复制链接,如图5所示。

【图5】

②勾选地址过滤,过滤规则选择包含,将复制的目标地址粘入,使用公共部分“company_contact.html”进行地址过滤,得到所需链接,如图6所示。

【图6】

③点击采集预览确认链接是否过滤完全,如图7

【图7】


第三步:过滤翻页链接

①在采集预览中选择普通翻页,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“pn+数字”。使用过滤串“\d”,右击复制链接,如图8所示。过滤串规则说明:\d  表示一串(个)数字

【图8】

②勾选地址过滤,过滤规则选择包含,填入“pn\d”,得到列表链接,如图9所示。

【图9】

③右击模板一,选择模板预览,采集预览确认链接是否过滤完全,如图10: