前嗅网络发表于2022年5月25日17:50最后回复于2022年5月25日17:50

如何将爬虫数据写入Mysql等各类数据库中

256浏览量

0评论

在做数据相关项目时,往往需要将爬虫采集到的数据一步到位存储到系统所在的数据库中,这样就可以直接调用采集到的数据。


采集大批量的数据时,为了方便我们保存和查找数据或者根据某条件查找特定数据时,就需要将采集的数据直接存储到库中。

今天就来为大家介绍一下,如何将ForeSpider爬虫软件采集的数据,直接存储到ForeLib/Mysql/SQL Sever/Oracle/ODBC等数据库中。

ForeLib数据库
ForeSpider爬虫软件内置ForeLib数据库,用户下载安装ForeSpider数据采集系统后,系统默认关联ForeLib数据库,如下图所示:


图片


用户无需自己安装关联其他数据库,即可采集数据存储入库。


图片


ForeLib数据库支持百亿级数据规模,是一种免费非关系型数据库,一种高效率、高安全性的,适应高吞吐量的分析性数据库。既可以快速搭建Web服务系统,也为企业内部构建IT信息系统提供了较完整的解决方案。

 

优势:

①作为非关系数据库:

支持NoSQL和SQL两种模式。同时具备强大的数据库操作支持特性,有着更加灵活的数据操作方式,除了支持传统的SQL语句外,支持直接操作字段和数据偏移。作为通用的数据库系统,它具有极简又完整的数据管理模式。

②作为分布式数据库:

它具备分布式处理的优良性能。占用内存少,并发能力强,基于大数据的高性能和针对性设计。

③性能优秀

运行逻辑基于计算机底层编译,完全使用C++开发,性能优良,系统资源开销和CPU使用效率都很优秀,优于MySQL等主流数据库。采取多级缓存机制,用最小资源换取最高性能,达到资源与性能双优的程度。


1.全文检索

用户还可对采集到的数据进行字段、全文检索,对检索出的数据进行删除、导出等操作,从而灵活筛选采集到的数据。对全文检索到的数据,进行关键词高亮显示。

 



设置介绍:

按字段检索:关键词检索某一字段,导出、删除检索出的数据。

全文检索:关键词检索全部数据,导出、删除检索出的数据。

 

检索方法:

在数据浏览中,可按条件检索具体数据记录。检索方法如下:

(1)按字段检索

检索语句由以下内容构成:

①字段名称

②运算符:

包括等于(=)、不等于(!=)、大于(>)、大于等于(>=)、小于(<)、小于等于(<=)、and、or、in(查询某个字段是否包含某个字符串)。

③数字或字符串:

字符串需要用英文单引号或双引号括起来。

例如:

id>100 and id<500

title=”北京”

(2)全文检索

可以支持直接输入检索词,进行数据库的全文检索。注意需要整体检索的字段,字段属性必须选择“索引字段”。


2.灵活导出

ForeLib数据库还可分组批量导出采集到的数据。

可以导出Excel、csv、txt等文本格式,还可以导出图片、视频等各种文件数据。

可以导出全部记录,或某个字段,或某段记录。

可以按照某种规律,将记录自动分割成多个文件导出。

可以在导出的同时按照某个规律创建文件夹,将不同类型的数据存入不同命名的文件夹中。

分割存储:可按照记录数目、字段值进行分组批量导出。

下图所设置表示每50条数据导出为一个数据表文件。

 

图片


下图所设置表示每个p_time值导出一个文档,即发布时间为同一天的文章内容导出为一个文档。

 

图片


 

适用场景:

①采集的数据量太大

XlS文件最多存储65535行数据,当采集到的数据量高于该行数时,可设置记录数目,分组导出数据。

②按文件夹分类导出数据

按照某一分类字段,批量导出对应分类中的数据。如导出某地区所有的数据、导出某行业所有的数据、导出某网站所有的数据等。


3.支持分布式存储

ForeLib数据库,支持海量存储,支持数据在多个服务器上分布式存储,支持增加服务器以便增加存储容量,支持大规模数据读写,且数据读写性能不会随着数据量增长而降低。

用户可以通过采集系统将任务启动云采集,同时可进行节点资源分配、任务定时启动、任务数据实时查看等操作。

节点分配支持对于紧急任务可以优先分配节点资源;支持定时启动,可以按设置时间定点启动任务;支持任务数据实时查看,实时导出。

 

概念介绍:

分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

 

适用场景

①分布采集统一存储

各服务器分开采集数据,将数据统一存储到总服务器中。

②分布采集分布存储

各服务器分开采集数据,分开存储到各自服务器中。

③分布采集分布存储交叉调用

各服务器分开采集数据,分开存储到各自服务器中,各服务器可调用指定服务器中的数据。

④其他分布式场景

可根据需求,定制各种分布式数据采集存储场景。


所以当用户批量采集大规模数据或者需要进行数据检索的时候,不需要安装任何数据库,直接使用ForeSpider就可以实现。

而且这样采集到的数据也是存储在本地,绝对保证用户数据采集及存储的私有性和安全性。安全性远高于市场上的云采集器及浏览器采集等爬虫软件。


Mysql据库

首先下载并部署好Mysql数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

连接本地数据库:数据路径写本地的IP地址或localhost,后加端口号。

连接远程数据库:数据路径填写远程服务器的IP地址。




注意:Mysql客户端工具配置数据库时,编码须选择UTF-8或者GBK。


 SQL Server数据库

首先下载并部署好SQL Server数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。



 ODBC数据库

可以通过微软的ODBC数据源,链接Access、Excel和SQL Server。

先在本地控制面板的管理工具中找到ODBC数据源。以ODBC(Excel)为例:


 

 

在ForeSpider数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。

图片


 Oracle数据库

首先下载并部署好Oracle数据库,然后打开ForeSpider爬虫软件,在数据采集界面,如下图所示设置好需要关联的数据库信息,打开数据库即关联成功。


图片


适用场景:

①实时同步数据到某系统、网站

将ForeSpider爬虫软件关联到目标系统、网站的数据库中,建表保持一致,即可将数据实时同步到该系统、网站中。

②数据实时采集到本地数据库

将ForeSpider爬虫软件关联到本地数据库中,建表保持一致,即可将数据实时同步到该数据库中。


*以上网站仅为展示ForeSpider数据采集分析引擎采集范围及能力,请您在使用中,严格按照国家法律和对方网站的要求进行合法的数据爬取,不要将数据用于违法用途。


私信

举报