前嗅网络发表于2022年2月22日16:23最后回复于2022年2月22日16:23

爬虫常见采集场景:识别正文主题采集某类数据

263浏览量

0评论

ForeSpider数据采集分析引擎,可通过识别正文语义,判断内容符合设定主题的,才采集该数据,其余不需要的数据经判断后不采集入库。、


案例:

1. 采集属于某些主题的正文

支持采集属于某个主题的正文,例如只采集长三角地区的经济新闻,可以通过ForeSpider数据采集系统,配置好关于“江苏”、“浙江”、“上海”的地区主题,从而在采集新闻网站时,实现只采集与长三角相关的新闻。


2. 采集不属于某些主题的正文

支持采集属于不某个主题的正文,例如采集商品评论时,不采集关于物流的评论,可以通过ForeSpider数据采集系统,配置好关于“物流”的主题信息,从而在采集商品评论时,过滤掉关于物流方面的评论。


3. 采集属于某些主题但不属于另一些主题的正文

通过ForeSpider数据采集系统,采集某招投标公告中,与“工程”、“建筑”、“市政”、“土建”、“施工”相关的招标公告内容,但不采集与“装修”、“绿化”、“通信”有关的标讯主题。可以通过在ForeSpider爬虫中,通过主题配置轻松实现。


私信

举报