Scrapy框架编写爬虫
< 返回列表时间: 2020-06-22来源:OSCHINA


在 tutorial/spiders/ 下创建一个 py 文件 dmoz_spider.py,它是这样定义的:
import scrapy from tutorial . items import DmozItem class DmozSpider ( scrapy . Spider ): name = 'dmoz' allowed_domains = [ 'dmoz.org' ] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/" , "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse ( self , response ): sel = Selector ( response ) sites = sel . xpath ( '//ul[@class="directory-url"]/li' ) for sel in sites : item = DmozItem () # 实例化一个 DmozItem 类 item [ 'title' ] = sel . xpath ( 'a/text()' ). extract () item [ 'link' ] = sel . xpath ( 'a/@href' ). extract () item [ 'desc' ] = sel . xpath ( 'text()' ). extract () yield item
爬虫类必须继承自 scrapy.Spider 类, 且定义一些属性:
name : 用于区别 Spider。 该名字必须是唯一的,不可以为不同的 Spider 设定相同的名字。
start_urls : 包含了 Spider 在启动时进行爬取的 url 列表。 因此,第一个被获取到的页面将是其中之一, 后续的URL则从初始的URL获取到的数据中提取。
parse() 是 spider 的一个方法。 被调用时,每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成 item )以及生成需要进一步处理的 URL 的 Request 对象。scrapy 为 Spider 的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了 Request。Request 对象经过调度,执行生成 scrapy.http.Response 对象并送回给 spider parse() 方法, 一般返回 Item 实例。
爬取
进入该工程目录,本例中就是 tutorial/ , 在命令行执行
scrapy crawl dmoz
保存
可以使用如下命令
scrapy crawl dmoz -o items.json
该命令是说将结果保存在 items.json 文件中。
热门排行