需求:从“安居客”二手房列表,进入房源正文页采集数据。
网页结构:
①列表页:二手房列表。
【第一层网页】
②正文页:点击列表链接,进入正文数据页,此为第二层网页结构。
【第二层网页】
模板结构:
需要通过抽取列表页的翻页链接、列表链接,进入正文页获取房源信息。配置结构如下:(有几层网页结构,就创建几层模板)
【模板结构】
解析:
房源列表页需要翻页以获取全部房源列表,还需要抽取列表链接以进入正文页。因此需要两层模板,模板一对应列表页,创建翻页的链接抽取和列表的链接抽取,模板二对应正文页,抽取正文页的数据。
翻页链接抽取关联模板一,可以循环得到所有翻页链接。列表链接抽取关联模板二,可以由此跳转链接进入正文页。