022-2345 2937
185 2247 0110
business@forenose.com
QQ:2779623375
用户QQ群3:606835039
用户QQ群4:795287153
订阅号
服务号
客服微信:qianxiu0106
ForeSpider
数据采集引擎
数据采集范围 | ||
---|---|---|
功能分类 | 功能点 | 详细介绍 |
支持的网站结构 | 支持Ajax技术 | 可采集Ajax网页的内容 |
采集基于js页面的数据 | 可采集基于js页面的内容 | |
采集post请求数据 | 可采集post请求中的内容 | |
采集get请求数据 | 可采集get请求中的内容 | |
采集需要cookie的网站 | 可采集需要cookie的网站 | |
自动解析JS | 启用JavaScrIPt功能即可自动解析页面JS | |
网页源码智能解码 | 设置网页编码,即可自动解码 | |
OAuth认证 | 采集OAuth认证的网站 | |
采集境外网站 | 可采集境外网站 | |
采集本地文件 | 可采集本地文件内容 | |
采集内网网站 | 可采集内网网站 | |
采集APP软件数据 | 可采集各类APP软件的数据 | |
登录采集 | 可采集需要登录的网站 | |
关键词采集 | 可采集关键词搜索出来的内容 | |
瀑布流翻页采集 | 可采集瀑布流翻页的网站 | |
浏览器采集 | 可模拟浏览器点击采集 | |
采集批量数据源网站 | 可配置一个模板采集成千上万个网站 | |
支持的数据格式 | 采集外部数据源 | 采集时可调用本数据库中的其他数据表,或其他数据库/服务器中的数据,作为采集关键词、数据源地址等 |
采集视频 | 可采集网页中的视频 | |
采集直播 | 可采集网页中正在直播的视频 | |
采集音频 | 可采集网页中的音频 | |
采集图片 | 可采集网页中的图片 | |
采集pdf文件 | 可采集网页中的pdf文件 | |
采集word文件 | 可采集网页中的word文件 | |
采集表格文件 | 可采集网页中的表格 | |
采集各种附件 | 可采集网页中的各类附件 |
多场景轻松配置 | ||
---|---|---|
功能分类 | 功能点 | 详细介绍 |
登录配置 | 登录配置 | 可自动配置,也可手动配置 |
自动生成cookie | 可自动生成cookie,获取数据 | |
手动配置cookie | 对于需要cookie的网站,可手动添加cookie,获取数据 | |
关键词配置 | 关键词配置 | 可进行关键词配置,可在高级配置中配置各项参数 |
批量导入、修改关键词 | 批量导入删除、修改关键词 | |
关键词自动排重 | 批量关键词自动排重 | |
链接抽取过滤 | 定位过滤链接 | 根据网页位置,抽取固定位置的链接 |
地址过滤链接 | 根据网址规律,抽取特定规律的链接 | |
标题过滤链接 | 根据网址标题规律,抽取符合标题规律的链接 | |
智能拼接链接 | 根据网站规律,高级设置链接参数,快速拼接链接 | |
数据抽取过滤 | 定位取值 | 抽取特定位置的数据 |
节点取值 | 抽取网页源码中特定节点的数据 | |
特征定位 | 根据正文文本特征,自动定位抽取数据 | |
智能识别正文 | 可智能识别数据页正文内容 | |
智能识别标题 | 可智能识别数据页标题 | |
自动获取网页title | 可自动获取数据页title | |
自动获取网页时间 | 可自动获取网页更新时间 | |
自动获取采集时间 | 可自动获取采集时间 | |
自动获取页面源码 | 自动获取页面源码 | |
自动识别列表数据 | 自动识别网页中列表链接的内容并抽取数据。 | |
智能获取节点属性值 | 可智能获取页面源码中某一节点属性值,如href中的链接地址 | |
智能提取其他页面数据 | 可智能提取其他页面的数据,将其他页数据存储到本页的数据表中 | |
支持UTF-8与GBK相互转码 | 可以将页面源码中的UTF-8与GBK相互转码 | |
挖掘清洗分类 | 支持数据分析功能 | 可对采集到的数据进行分析 |
挖掘特征数据 | 根据某类特征挖掘数据 | |
智能清洗数据 | 根据数据规律,智能清洗不需要的文本内容 | |
自定义主题识别 | 按照需求自动识别文本主题,并分类采集存储 | |
条件筛选 | 自定义采集视频大小及时长 | 设置采集视频的大小及时长,采集符合要求的视频数据 |
自定义采集文件大小 | 设置采集文件的大小,采集符合要求的文件数据 | |
过滤采集文件类型 | 设置采集文件的类型,采集该类型的文件数据 | |
采集特定时间段数据 | 采集网站中指定时间段内的数据 | |
采集预览 | 模板预览 | 在配置过程中预览某层模板的采集效果,及时调整提高配置效率 |
检测链接抽取 | 在配置中可随时查看链接抽取准确性,调整过滤规则 | |
检测数据抽取 | 在配置中可随时查看数据抽取准确性 | |
批量智能配置 | 配置继承共享 | 子模板共享父模板内容 |
配置映射共享 | 不同模板之间通过映射灵活共享共同配置部分 | |
关联外部数据源 | 关键词、采集源,数据匹配入库等均能关联外部数据源进行数据匹配 | |
AI配置批量网站 | 智能配置成千上万的结构类似的网站 | |
模板复制粘贴 | 将已配置好的模板层级,复制并粘贴到需要的新模板中,提高配置效率 | |
表结构可复用 | 不同网站可重复使用同一表结构,无需重建表结构 |
普适化运行设置 | ||
---|---|---|
模板导入/出 | 导出采集模板 | 可将配置好的采集模板导出 |
导入采集模板/出 | 可将配置好的采集模板导入 | |
灵活调速 | 自定义设置采集速度 | 自定义采集速度,采集速度最高可达8000万条/天 |
自定义调整采集线程 | 自定义调整线程 | |
动态调整采集速度 | 可直接在采集过程中调整采集速度,无需终止任务 | |
动态调整采集线程 | 可直接在采集过程中调整采集线程,无需终止任务 | |
浏览器加速 | 加载时自动过滤页面中的非html文件,加速加载和运行 | |
定时采集 | 间隔定时采集 | 设定间隔时间,实现固定间隔时间的采集开启/关闭 |
定点定时采集 | 设定爬虫自动开始/关闭的时间 | |
自定义采集策略 | 增量采集 | 增量采集网页更新数据,不重复采集/天 |
查漏采集 | 运行中网络错误、入库错误的请求,查漏再次采集,更新补充保证采集数据的完整性 | |
继续采集 | 继续运行上次未完成的采集任务 | |
全部重采 | 重新运行全部采集任务 | |
自定义请求上限 | 设置请求上限,达到上限后停止采集 | |
加载日志宏 | 设置日志加载命令,使日志按照命令执行 | |
运行排重 | 运行列表排重 | 运行时对请求进行排重处理,防止重复采集数据 |
加载超时设置 | 自定义超时时间 | 设置发送超时和请求超时最大时长,有效防止因网络等原因导致的,超时请求发送或接收数据失败的情况 |
超时重试次数设置 | 设置超时重试次数,可在超过设置的时间后多次重试 | |
模拟浏览器 | 模拟浏览器版本 | 自定义设置运行时使用的浏览器版本 |
自定义User-Agent | 自定义User-Agent,模仿蜘蛛采集 | |
异常错误处理 | 网络异常预警 | 运行时遇到因网络异常而导致的请求失败,系统会自动预警 |
错误处理模板 | 运行中错误的请求返回指指定模板中再次运行,大大提高采集效率 | |
运行进度监控 | 采集日志记录 | 记录运行过程中所有请求日志 |
日志导入/导出 | 导出、导入日志 | |
日志统计 | 统计日志数据 | |
自动保存任务进度 | 出现异常情况时,自动保存任务进度,重新开启后可继续采集 | |
采集顺序 | 多网站采集 | 同时采集多个网站/模板 |
多网站同步采集 | 将所有任务的所有日志都装载完再开始采集。可以保证顺序和排重。 | |
多网站异步采集 | 边加载边采集,优点是开始采集会比较快,等待时间短,缺点是无法保证顺序和排重。 | |
智能自检 | 系统配置检测 | 采集前运行自检,可清楚查看配置设置是否达到最佳状态 |
多策略反爬设置 | ||
---|---|---|
反爬预警 | 网络异常识别 | 自定义网络异常识别次数,当达到次数时,会自动提醒 |
反爬识别 | 自定义反爬识别次数,当达到次数时,会自动提醒 | |
自定义预警操作 | 可自行选择预警操作,包括:暂停、自动休眠、自动更换代理IP等 | |
反爬提醒 | 可自行选择提醒方式,包括:图标闪烁、弹窗等待等 | |
代理IP设置 | 接入动静态代理IP | 可接入第三方代理IP,动态和静态均可 |
代理IP测试 | 接入第三方代理IP后,可测试其有效性 | |
反爬自动更换代理IP | 运行时,自动识别反爬并自动更换代理IP | |
代理IP优化 | 优化无效代理,优化响应过慢代理 | |
多通道采集 | 多线程采集时,真实模拟多个通道进行采集的过程 | |
动态IP锁定 | 将动态IP与运行时获取一条数据的一组请求锁定,更真实的模拟IP获取数据的过程 | |
全局代理IP设置 | 设置全局代理IP | |
登录反爬 | 模拟多账号登录 | 模拟多账号登录,用于封号的反爬策略 |
请求数限制 | 自定义请求上限 | 设置请求上限,达到上限后停止采集 |
验证码反爬 | 支持批量识别验证码 | 可接入第三方打码平台,批量识别验证码,解决网页验证码问题 |
数据存储与导出 | ||
---|---|---|
导出格式多样化 | 导出为csv | 将数据导出为csv格式 |
导出为txt | 将数据导出为txt格式 | |
导出为xls | 将数据导出为xls格式 | |
导出图片 | 将采集到的图片自定义命名字段,导出到指定文档中 | |
导出视频 | 将采集到的视频自定义命名字段,导出到指定文档中 | |
导出附件 | 将采集到的附件(pdf、word、xls等)自定义命名字段,导出到指定文档中 | |
局部导出 | 导出指定范围数据 | 导出指定范围的数据 |
导出指定字段 | 导出指定字段的数据 | |
自定义文件命名字段 | 自定义文件命名字段 | |
分组导出 | 自定义文件夹分组导出 | 将指定范围的数据,分组导出到自命名的不同文件夹中 |
筛选检索 | 按字段检索 | 关键词检索某一字段 |
全文检索 | 关键词检索全部数据 | |
按字段检索并导出 | 关键词检索某一字段,并导出符合的数据 | |
全文检索并导出 | 关键词检索全部数据,并导出符合的数据 | |
按字段检索并删除数据 | 关键词检索某一字段,并删除检索出的数据 | |
全文检索并删除数据 | 关键词检索全部数据,并删除检索出的数据 | |
存储功能 | 自定义新增数据存储规则 | 可设置不同的数据存储形式:仅更新新增数据、实时采集最新数据并覆盖旧数据、实时采集所有采集数据等。 |
数据自动排重 | 自定义排重字段,根据字段内容进行排重存储 | |
多个网站数据统一存储 | 多网站数据同时采集并存储到同一个数据表中 | |
多网站数据独立存储 | 多网站同时采集单独存储到不同数据表中 | |
自带数据库 | 系统默认数据库为ForeLib数据库 | |
支持Mysql数据库 | 可关联Mysql数据库,将数据实时采集到Mysql数据库中 | |
支持Access数据库 | 可关联Access数据库,将数据实时采集到Access数据库中 | |
支持SQL Server数据库 | 可关联SQL Server数据库,将数据实时采集到SQL Server数据库中 | |
连接外部服务器存储 | 连接外部服务器,将数据直接存储到外部服务器中 |
数据推送发布 | ||
---|---|---|
挖掘清洗 | 推送时挖掘数据 | 在推送的同时,对文本进行特征挖掘提取 |
推送时清洗数据 | 在推送的同时,对数据按照规律进行清洗 | |
推送时间设置 | 推送时间设置 | 将采集到的数据定时推送 |
实时推送 | 实时推送采集到的数据 | |
推送方式设置 | 邮件推送 | 通过邮件推送数据 |
http/https推送 | 通过http/https推送数据 | |
定制接口推送 | 通过定制接口推送数据 | |
数据库推送 | 将数据推送到指定数据库 |
极速采集 | ||
---|---|---|
并行采集流数据 | 并行采集视频文件 | 并行下载多个视频文件,加快下载速度 |
并行下载附件 | 并行下载多个附件文件,加快下载速度 | |
多进程采集 | 多进程多线程运行 | 可同时运行多进程和多个线程,加快采集速度 |
多网站智能管理 | 多网站采集独立管理 | 同时运行多个网站时,可独立方便管理 |
多网站定时采集独立管理 | 同时运行多个网站时,独立对各网站进行定时管理 | |
多网站日志独立管理 | 同时运行多个网站时,日志独立管理 | |
采集批量网站无上限 | 可同时采集成千上万个网站,没有上限 | |
自研内核引擎 | JS引擎内核 | 采集引擎完全由C++编写,不同于浏览器采集,单机采集速度最高可达400万条/天 |
CSS引擎 | 拥有CSS引擎,可对快速解析网页中CSS数据,高效采集 | |
DOM树解析引擎 | 拥有DOM树解析引擎,对网页中DOM树结构快速解析 | |
分布式引擎 | 分布式引擎,可实现多机集群采集 |