前嗅网络发表于2022年2月22日16:23最后回复于2022年2月22日16:23

爬虫常见采集场景:采集(不)包含特定关键词的数据

182浏览量

0评论

ForeSpider爬虫软件,可采集网页中包含某些关键词,或不包含某些关键词的数据,也可以配合主题过滤综合筛选使用。


案例:

1. 采集包含特定关键词的数据

通过ForeSpider数据采集分析引擎,可以设置正文需要包含的关键词库,采集新闻资讯网站,只采集正文中包含“三胎、三孩”等特定关键词的网页内容,用于特定内容的舆情监控。


2. 采集不包含特定关键词的数据

通过ForeSpider数据采集分析引擎,采集金融财经类网站,只希望采集A股的相关信息,当判断网页中包含“美股、港股、H股、纽交所、纳斯达克”等其他股市交易信息时,就过滤掉相关新闻不予采集。


3. 采集属于某主题但不包含特定关键词的政策

通过ForeSpider数据采集分析引擎,设置一份关于“疫情”主题的配置文件,但是其中包含“美国、日本、印度”等境外地区的关键词新闻内容,需要被过滤掉。从而实现只采集国内疫情情况,不采集国外疫情情况的需求。


私信

举报