< 返回文档列表
2.1.3 从【链接列表】跳转采集正文
noInitnoInit

凤凰网(http://tech.ifeng.com/)

一.网站内容

1.网站截图说明

 

2.采集结果截图

 

 

二.操作方法

1.新建任务

 

①点击【采集配置】-【任务列表】中的“+”,新建采集任务。

②采集地址中输入需要采集的网页地址。

采集列表链接,所以此处需要勾选【抽取链接】-【网页所有链接】。

 

2.链接抽取配置

 

选择地址过滤,过滤方式为普通过滤,过滤规则为包含“/c/7”,过滤出需要的链接,最后点击右上角的【采集预览】查看是有内容。

3.采集预览

 

4.数据抽取

采集正文数据需要进入详情页面。

①在模板抽取配置中,右键选择添加模板,或点击第一个按钮添加。

 

②在新模板右键添加数据抽取,或点击第三个按钮添加。

 

③模板属性配置要勾选数据抽取并填写数据抽取示例地址。

 

  

5.配置表结构

 

如图示点击【采集配置】-【数据建表】,【采集表结构】“+”按钮,新建表结构,可以自定义名称。

根据所需内容,配置表结构字段,此处配置了包括主键、文章标题、作者、发布时间、文章内容。表结构建立如下:

 

hkey字段

 

title字段

 

author字段

 

get_time字段

 

content字段

6.关联数据表

表结构配置完毕后,需要进行数据关联,操作如下:

 

选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。

 

7.模板预览

通过采集预览,可以了解是否能够正确地采集到所需数据。右键选择【链接列表】-【模板预览】,可以单独预览某个模板的数据。