< 返回文档列表
2.2.2 采集附件及其地址
视频教程:模板下载:


山西招投标网http://www.sxbid.com.cn/

一.网站内容

1.网站截图说明

本教程通过“山西招投标网”官网来采集 链接列表(红框位置) 中正文的附件,链接入口为:http://www.sxbid.com.cn/

 

【官网-二手房】

2.采集结果预览

 

 

二.操作方法

1.新建任务

按图片数字所示,1-2-3完成新建任务的步骤

 

【新建任务】

①按照图示1位置,点击“采集配置”。

②按图示2位置,点击“任务列表”中的“+”。

③在新建采集任务中输入采集网址即http://www.sxbid.com.cn/,任务名称可自定义,本次可输入为“中国石头招标投标网”。

点击“下一步”,需要采集正文数据,所以此处需要勾选“网页内所有链接”和“抽取数据”。

 

2.链接抽取配置

 

①按照图示1位置,Ctrl+左键选中“链接列表”。

②按照图示2位置,点击“确认选区”,保证我们的数据是被选中的状态。

③按照图示3位置点击“采集预览”,查看数据详情,如下图所示:

 

3.数据抽取

 

抽取数据(红框位置)中的链接 务必对应“链接列表”内的正文数据,即附件页面地址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html

4.配置表结构

 

如图示点击【数据建表】:

①点击“采集配置”。

②点击“数据建表”。

③点击“+”,新建表结构并自定义名称,这里取为“zhaobiao”。

根据所需内容,配置表结构字段,此处配置了包括主键、网页地址URL、标题、附件。表结构建立如下:

 

①主键字段:f_id

主键务必第一个创建,其含义为该表结构所属ID

A.采集内容:选择“主键”

B.数据类型:选择“长数字”

C.字段属性:选择 “索引字段”、“键值唯一”、“主键字段”。

 

②字段名称:url

A.采集内容:选择“网页信息”-“网页地址”。

B.数据类型:选择“字符串”。

C.高级类型:url地址。

 

③字段名称:name1

A.采集内容:选择“选区内可见文本”。

B.数据类型:选择“字符串”。

 

④字段名称:fujian

采集内容:选择“网页代码/图片等资料”-“数据流文件”。

 

5.关联数据表

表结构配置完毕后,需要进行数据关联,操作如下:

 

选择所需的表结构,点击【创建】按钮。创建表名称可随意填写,需注意开头仅可使用英文字母,可加数字。中文名称不能作为表名称。然后就可以采集数据了。

 

6.确认选区

操作如下图所示:

①字段:name1

A.按照图1位置,在左侧点击“name1”。

B.按照图2位置ctrl+左键选中文章标题。

C.最后点击“确认选区”即可。

 

②字段:fujian

A.按照图1位置,在左侧点击“fujian”。

B.在页面最低端会出现“附件下载”的位置即图2所示,ctrl+左键选中附件内容。

 

7.采集预览

 

“新建模板:02”处右键选择“模板预览”,即可查看是否采集出所需数据,如下图: