爬虫常见采集场景:识别正文主题采集某类数据
263浏览量
0评论
ForeSpider数据采集分析引擎,可通过识别正文语义,判断内容符合设定主题的,才采集该数据,其余不需要的数据经判断后不采集入库。、
案例:
1. 采集属于某些主题的正文
支持采集属于某个主题的正文,例如只采集长三角地区的经济新闻,可以通过ForeSpider数据采集系统,配置好关于“江苏”、“浙江”、“上海”的地区主题,从而在采集新闻网站时,实现只采集与长三角相关的新闻。
2. 采集不属于某些主题的正文
支持采集属于不某个主题的正文,例如采集商品评论时,不采集关于物流的评论,可以通过ForeSpider数据采集系统,配置好关于“物流”的主题信息,从而在采集商品评论时,过滤掉关于物流方面的评论。
3. 采集属于某些主题但不属于另一些主题的正文
通过ForeSpider数据采集系统,采集某招投标公告中,与“工程”、“建筑”、“市政”、“土建”、“施工”相关的招标公告内容,但不采集与“装修”、“绿化”、“通信”有关的标讯主题。可以通过在ForeSpider爬虫中,通过主题配置轻松实现。
评论区
+ 写评论