【从零开始学爬虫】采集收视率排行数据
264浏览量
0评论
脚本文本:
url u;
for ( var i=1;i<=165;i++){
u.title ="第"+i+"页";//页码
u.urlname = "http://www.tvtv.hk/archives/category/tv/page/"+i;
u.tmplid = 1; //模板关联
u.entryid = CHANN.id;
RESULT.AddLink(u,"","");
}
【采集预览】
脚本文本:
var sta=DOM.FindClass("page-header","header",0);//定位到header标签
var list=sta.next;//定位下一子标签
while(list) {
var link=DOM.FindClass("entry-header","header",list);//定位到header标签
var linkin=link.child.child.child.child.next.child.child.child;//定位到列表链接所在标签
url u;//定义一个url
u.title = DOM.GetTextAll(link);//取标题
u.urlname =linkin.href;//取列表链接
u.entryid = this.id;
u.tmplid =2;//关联数据抽取模板
link=link.next;
list=list.next;
RESULT.AddLink(u,"","");//传递链接
}
【新建模板、添加数据抽取】
【创建表结构】
【关联表单】
【脚本的创建与编写】
脚本文本:
record re;//定义一个record记录集
var name=DOM.FindClass("entry-header","header",0);//定位到header标签
var cont=DOM.FindClass("entry-content","div",0);//定位到div标签
re.title=DOC.GetDom().GetTextAll(name.child);//取标题文本
re.time_sub=DOC.GetDom().GetTextAll(name.child.next.child);//取时间文本
re.content=DOC.GetDom().GetTextAll(cont).Right("排名");//取排名文本
re.id=MD5(URL.urlname) ;//id
RESULT.AddRec(re,this.schemaid);//输出结果
【采集预览】
【建立关联数据表】
【开始采集】
【数据浏览】
【数据导出】
评论区
+ 写评论