发表于2017年5月19日20:19最后回复于2017年5月19日20:19

ForeSpider入门教程

26887浏览量

6评论

  • 配置表单

    流程:创建表单->添加字段 作用:数据采集之后需要存入数据库,在ForeSpider中创建的表单,就是数据采集入库的表结构,一个表单可以供多个频道使用,可以创建成多个结构相同的数据表。 配置好表单后,创建频道和模板,可以将网页中非结构化的数据与表单中的字段一一对应,采集下来存入数据库,成为结构化的数据。

  • 配置频道

    流程:创建频道->输入采集地址->(进行登录配置/关键词搜索配置)->设置频道属性。 作用:频道是数据源的采集入口,一个频道对应着一类采集对象。配置频道可以填写采集地址、填写登录和Cookie信息、选择采集属性等,如果采集对象是网站的搜索栏,还需要配置搜索关键词。

  • 配置模板

    流程:创建模板->输入示例地址->链接页:(创建链接抽取->选择关联模板->地址/标题过滤);数据页:(创建数据抽取->选择表单->字段取值)。

    作用:模板通过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,因此同一层页面只能配置一个模板,填写一个示例地址,但是一个模板中可以创建多个链接、数据抽取,每个链接抽取都要关联其他模板。

    网站从入口页到数据页,一般会有多层的链接跳转。我们为每一层级页面都对应的建立一个模板,每个模板对应该层级的一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。

    网站的页面分为三类:入口页、链接页和数据页。 对于入口页,为该模板找到与下一层级的关联关系。通过点击链接能够跳转到下一层级的,为该模板建立链接抽取;通过关键词搜索能够跳转到下一层级的,为该频道配置关键词搜索。 对于链接页,为该模板创建链接抽取,通过过滤串来过滤无关链接,每个链接抽取都要关联其他模板,形成网站上原有的链接跳转关系,完成各层级页面之间的关联关系。 对于数据页,为该模板创建数据抽取,选择对应的表单结构,然后通过定位数据,为表单字段取值,获得数据。 一个采集频道可以对应多个模板,一个模板只能对应一个示例地址。通过选取一个具有代表性的页面,为其配置合适的模板,可以采集到网站上与该示例地址层级相同的页面内容。 用户在进行模板配置之前,先浏览该网站,观察如何从入口页点击到数据页。中间经历了几层页面,就对应着创建几个模板;各个页面之间如何连接,就对应着模板之间的关联情况。从每一层级选择一个有代表性的网址,作为该模板的示例地址。 例如淘宝首页作为一个入口页,某类商品列表作为链接页,某商品详情作为数据页,模板的配置关系如下: 模板 类型 描述 示例地址 抽取类型 关联情况 模板一 入口页 淘宝首页 https://www.taobao.com 一个链接抽取:分类列表 模板二 模板二 链接页 商品列表 https://s.taobao.com/list?spm=a21bo.5 0862.201867-links-0.4.f42Jqp&q=%E 6%AF%9B%E8%A1%A3&cat=16&s tyle=grid&seller_type=taobao 两个链接抽取:商品列表和翻页 模板三 模板三 数据页 商品详情 https://item.taobao.com/item.htm?spm =a219r.lm874.14.122.oFiedu&id=540 780593215&ns=1&abbucket=15 数据抽取 商品-表单

  • 数据采集

    流程:连接数据库->选择数据表->关闭不需要采集的频道->(清除日志)->数据采集。 作用:在配置完表单、频道和模板之后,就可以进行数据采集了。

  • 数据浏览

    流程:数据浏览->(数据导出) 作用:ForeSpider连接了数据库,在数据浏览页面可以浏览数据库中的数据。数据可以从数据库中导出为csv、txt等不同的格式。

  • 私信

    举报