1.特征定位含义
当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。
举例:对于字符串“作者:***”,采集作者名称时,可用“作者:”作为特征来定位。
2.操作方法
①选择:按Ctrl+鼠标左键点击页面上所需数据的区域。
②识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。
③点击“确认选区”按钮,选区生效。
【特征定位】
3.特征定位的类型
特征定位分为四种方式:
(1)局部关键词
当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。
(2)全文关键词
根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。
(3)大文本
选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。
(4)特殊标签
采集页面中只出现一次的特殊标签,如标题的<h1>标签等。