l 采集网站
【场景描述】采集中国政府采购网上中央公告模块的所有数据。
【源网站介绍】
中国政府采购网财政部唯一指定政府采购信息网络发布媒体,国家级政府采购专业网站。
【使用工具】前嗅ForeSpider数据采集系统,免费下载:http://www.forenose.com/view/forespider/view/download.html
【入口网址】http://www.ccgp.gov.cn/cggg/zygg/
【采集内容】
采集招标网上中央公告模块的所有数据。
【采集效果】如下图所示:
l 思路分析
配置思路概览:
l 配置步骤
1. 新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.获取翻页链接
①观察翻页规律,如下所示,打开翻页,复制翻页链接,粘贴到文本上。
②观察发现,翻页规律如下:
③建立脚本教程,拼翻页链接,具体如下所示
脚本文本如下所示:
for(int i = 1;i <= 24;i++)//for循环拼链接
{
url u;//定义一个url
u.title = URL.title+"@"+i;//返回链接名为@+页数
u.urlname = "http://www.ccgp.gov.cn/cggg/zygg/index_"+i+".htm";//返回链接为拼出来的链接
u.entryid = CHANN.id;
u.tmplid = 2;//关联模板02
RESULT.AddLink(u);//返回一个值
}
④采集预览,如下所示,表示翻页链接拼取成功。
3.获取列表链接
①新建模板02,在其下新建一个链接抽取。
②采用定位过滤的方法,获取公告列表链接,具体操作如下所示:
③采集预览,如下所示,表示配置成功。
4.数据抽取
①新建模板02,在该模板下新建一个数据抽取。
关联模板,将模板02的链接关联至模板03。
②采集预览,打开列表链接预览界面,复制任意一条列表链接,粘贴在模板02的示例地址处。
③新建一个数据表单,具体步骤和字段属性如下所示:
④关联表单
⑤使用字段定位取值,来获取字段数据。
Title字段:
Pubtime字段:
Pubper字段:
Text字段:
⑥采集预览,双击直至进入最后数据页,如下图所示,说明数据抽取成功。
l 采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
①首先要建立采集数据表:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【zhaobiao】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。
②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
③采集中:
④采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。
⑤导出的文件打开如下图所示:
*本教程仅供学习交流,严禁用于商业用途!