Druid入门（1）—— 快速入门实时分析利器-Druid_0.17

时间: 2020-02-10来源：OSCHINA

前景提要

一、安装准备
本次安装的版本是截止2020.1.30最新的版本0.17.0
软件要求需要**Java 8（8u92 +）**以上的版本，否则会有问题 Linux，Mac OS X或其他类似Unix的操作系统（不支持Windows）
硬件要求
Druid包括一组参考配置和用于单机部署的启动脚本： nano-quickstart micro-quickstart small medium large xlarge
单服务器参考配置
Nano-Quickstart：1个CPU，4GB RAM 启动命令： bin/start-nano-quickstart 配置目录： conf/druid/single-server/nano-quickstart
微型快速入门：4个CPU，16GB RAM 启动命令： bin/start-micro-quickstart 配置目录： conf/druid/single-server/micro-quickstart
小型：8 CPU，64GB RAM（〜i3.2xlarge）启动命令： bin/start-small 配置目录： conf/druid/single-server/small
中：16 CPU，128GB RAM（〜i3.4xlarge）启动命令： bin/start-medium 配置目录： conf/druid/single-server/medium
大型：32 CPU，256GB RAM（〜i3.8xlarge）启动命令： bin/start-large 配置目录： conf/druid/single-server/large
大型X：64 CPU，512GB RAM（〜i3.16xlarge）启动命令： bin/start-xlarge 配置目录： conf/druid/single-server/xlarge
我们这里做测试使用选择最低配置即可 nano-quickstart
二、下载安装包
访问官网：
http://druid.io/现在也会跳转https://druid.apache.org/
或者直接访问 https://druid.apache.org/

点击download进入下载页面：

选择最新版本: apache-druid-0.17.0-bin.tar.gz 进行下载
200多M

也可以选择下载源码包用maven进行编译
三、安装
上传安装包
在终端中运行以下命令来安装Druid： tar -xzf apache-druid-0.17.0-bin.tar.gz cd apache-druid-0.17.0
安装包里有这几个目录：
LICENSE 和 NOTICE 文件 bin/* -脚本 conf/* -单服务器和集群设置的示例配置 extensions/* -扩展 hadoop-dependencies/* -Druid Hadoop依赖 lib/* -Druid库 quickstart/* -快速入门教程的配置文件，样本数据和其他文件
配置文件 #进入我们要启动的配置文件位置： cd conf/druid/single-server/nano-quickstart/

_common 公共配置

是druid一些基本的配置，比如元数据库地址各种路径等等
其他的是各个节点的配置
比较类似，比如broker cd broker/

jvm配置
main配置
runtime运行时相关的配置
回到主目录
启动的conf在 cd conf/supervise/single-server

里面是不同配置启动不同的脚本
四、启动
回到主目录 ./bin/start-nano-quickstart
启动成功：

访问
localhost:8888
看到管理页面

如果要修改端口，需要修改配置的端口和主目录下的 vi bin/verify-default-ports
五、加载数据
Druid提供了一个示例数据文件，其中包含2015年9月12日发生的Wiki的示例数据。
此样本数据位于 quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz
示例数据大概是这样： { "timestamp":"2015-09-12T20:03:45.018Z", "channel":"#en.wikipedia", "namespace":"Main", "page":"Spider-Man's powers and equipment", "user":"foobar", "comment":"/* Artificial web-shooters */", "cityName":"New York", "regionName":"New York", "regionIsoCode":"NY", "countryName":"United States", "countryIsoCode":"US", "isAnonymous":false, "isNew":false, "isMinor":false, "isRobot":false, "isUnpatrolled":false, "added":99, "delta":99, "deleted":0, }
Druid加载数据分为以下几种：加载文件从kafka中加载数据从hadoop中加载数据自定义加载方式
我们这样演示一下加载示例文件数据
1、进入localhost:8888 点击load data

2、选择local disk

3、选择Connect data

4、预览数据
Base directory输入quickstart/tutorial/
File filter输入 wikiticker-2015-09-12-sampled.json.gz
然后点击apply预览就可以看见数据了点击Next：parse data解析数据

5、解析数据
可以看到json数据已经被解析了继续解析时间

6、解析时间
解析时间成功之后两步是transform和filter 这里不做演示了直接next

7、确认Schema
这一步会让我们确认Schema 可以做一些修改
由于数据量较小我们直接关掉Rollup 直接下一步

8、设置分段
这里可以设置数据分段我们选择hour next

9、确认发布

10、发布成功开始解析数据

等待任务成功

11、查看数据
选择datasources 可以看到我们加载的数据
可以看到数据源名称 Fully是完全可用还有大小等各种信息

12、查询数据
点击query按钮
我们可以写sql查询数据了还可以将数据下载

Druid相关博文
什么是Druid
静下心来，努力的提升自己，永远都没有错。更多实时计算相关博文，欢迎关注实时流式计算