< 返回文档列表
2.1.5 从【子栏目】进【链接列表页】采集正文
视频教程:模板下载:

以安居客为例,https://tianjin.anjuke.com/sale/?from=navigation

一.网站内容

1.网站截图说明

本教程以采集“二手房”列表页链接内的正文数据为例,故链接入口应该为“二手房”板块的网址(https://tianjin.anjuke.com/sale/?from=navigation)

①点击官网,找到“二手房”点进进入,如下图红框所示。

 

②进入“二手房”复制该链接,如红框所示:

 

2.采集结果截图

 

 

二.操作方法

1.新建任务

按图片数字所示,1-2-3完成新建任务的步骤。

 

点击“下一步”,需要采集正文数据,所以此处需要勾选【链接列表】和【普通翻页】,如图,最后点击“完成”即可。

 

2.链接抽取配置

 

①内置浏览器显示搜索页面后,按照提示:ctrl+左键单击文章标题。

②点击【确认选区】按钮,也可以在右侧地址过滤设置过滤规则。

③最后点击右上角的【采集预览】查看是有内容,如下图:

 

3.翻页配置

 

采集页内含其它多链接,这时需要将翻页进行配置,以便将该页面内所有链接内容都可抽取出来。

按照图示数据操作:

①点击左侧“链接抽取:普通翻页”

②Ctrl+鼠标左键点击“下一页”

③点击右下角,选择“标题过滤”,过滤规则选择“包含”,手动输入“下一页”即可。

4.翻页采集预览

接第3步,点击右上角【采集预览】查看是否可生成如下图的链接和数据。

注:下图的预览内含所有下一页包含的链接。

 

5.数据抽取

在【新建任务】中输入的网址只是我们想采集的预览页面,具体采集的正文内容(数据)需要进入详情。

 

按照图示数据操作:

①双击左侧红框位置,可自定义名称,这里我们取“正文”。

②勾选【抽取数据】将对应的层级链接复制粘贴到【示例地址】中,最后点击“下一步”即可完成。(https://tianjin.anjuke.com/prop/view/A1887705624?from=filter&spread=commsearch_p&uniqid=pc5dd256fa182d89.39922172&position=1&kwtype=filter&now_time=1574065914)

6.配置表结构

 

如图示点击【数据建表】:

①点击“采集配置”-“数据建表”。

②点击“+”,新建表结构并自定义名称,这里取“安居客”。

 

根据所需内容,配置表结构字段,此处配置了包括主键、房屋信息、房屋编号、发布时间、文章内容等等。表结构建立如下:

 

字段名称:hkey

A.采集内容:选择“主键”。

B.数据类型:选择“长数字”。

C.字段属性:选择 “索引字段”、“键值唯一”、“主键字段”。

 

字段名称:suozaixiaoqu

A.采集内容:选择“选区内可见文本”。

B.数据类型:选择“字符串”。

C.数据长度:选择 范围10-20即可,最后点击确定。

 

字段名称:suozaiweizhi

A.采集内容:选择“选区内可见文本”。

B.数据类型:选择“字符串”。

C.数据长度:选择 范围10-20即可,最后点击确定。

表结构配置字段自定义即可,如有其他需求可按上述类似操作即可。最终呈现如下图:

 

7.关联数据表

表结构配置完毕后,需要进行数据关联,操作如下:

 

选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。

 

8.字段取值

操作如下图所示:

①字段:suozaixiaoqu

A.在左侧“安客居”下属字段中点击suozaixiaoqu。

B.找到“所属小区”对应信息“金城艺术家”并ctrl+左键点击选中该选区。

C.最后点击“确认选区”即可。

 

②字段:suozaiweizhi

A.在左侧“安客居”下属字段中点击“suozaiweizhi”。

B.找到“所属位置”对应信息“西青-精武-津来公路,近工一号路”并ctrl+左键点击选中该选区。

C.最后点击“确认选区”即可。

 

注意:主键无需确认选区,操作过程中要随时点击“保存”,养成良好习惯。

9.模板预览

通过预览,可以了解配置是否能够正确地采集到所需正文数据。鼠标右键后选择【链接列表】,可以单独预览某个链接的数据。