Apache Drill学习手册_查尔斯吉弗（Charles Givre），保罗罗杰斯（Paul Rogers）著_9787519843984

内容简介
序言
作者介绍
目录

主要内容

·使用Drill来清洗、准备和汇总原始数据供后期分析使用。

·对日志文件、Parquet文件、JSON和其他复杂的数据文件进行查询。

·使用标准SQL对Hadoop、关系型数据库、MongoDB和Kafka进行查询。

·通过各种编程语言访问Drill。

·使用Drill分析各种结构复杂或存在二义性的数据。

·通过自定义函数扩展Drill的功能，完成复杂的分析任务。

·为网络安全、图片元数据或机器学习数据提供分析能力。

前言

人类具备了对海量数据进行分析处理的能力，这也许是21 世纪最重要的技术进步之一。但是直到现在，用于大数据集分析的工具还是过于复杂或者昂贵（也可能是既复杂又昂贵）。Apache Drill 具备改变这一现状的潜力。

Apache Drill 为数据分析领域带来了无限新的可能，它允许用户使用一种标准的语言查询各种不同的数据源。

读者对象

我们把本书的目标读者设定为三种类型：数据分析师或其他使用Drill 进行数据查询的人、在生产环境中部署和维护Drill 的系统管理员，以及编写代码扩展Drill 功能的开发人员。

为何编写本书

三年前，Charles 在San Jose 召开的Strata 会议上了解到了Drill，他觉得Drill 很可能为数据分析领域带来一场革命。在与MapR 的首席科学家Ted Dunning 进行了几次交流后，Charles 意识到Drill 在安全领域的数据分析上大有可为。不过在那时，很多Drill 的功能都还没有文档，有关Drill 开发的信息也非常零散或根本找不到。Charles 想要扩展Drill 的功能，但是不知道应该从何入手。如果Charles 现在想重新学习Drill，那本书就包含了他想了解的一切注1。

Paul 在几家商业智能（BI）公司接触过不少数据查询工具和数据库工具。当他看到Drill 时，觉得它集其他很多工具之大成，而且是开源和可扩展的。Paul 加入了Drill的团队，并着手宣传Drill 的功能。

本书向你展示了如何使用Drill 高效地分析数据。本书不能替代Drill 的文档，它定位于学习Drill 的向导。它是使用Drill 多年的经验积累，并且解释了什么是Drill 以及它是如何解决用户问题的。

这本书也是为打算扩展Drill 功能的人准备的。当你开始试用Drill，你就可能想要为它开发一些当前缺失的功能。当Charles 刚开始使用Drill 时，没有足够的文档是一个很大的问题，本书的目标就是解决这个问题。第8~12 章以深入浅出的语言介绍了如何去扩展Drill 的功能。

本书组织结构

本书的读者对象有三种，各自具备不同的知识背景。以下是每个章节内容的设计思路：

?? 第1~3 章是对Drill 的基本介绍，并介绍如何把Drill 运行起来。

?? 第4~7 章是为数据分析师、数据科学家和其它使用Drill 进行数据查询的人准备的。除了第7 章以外，其他几个章节都需要读者理解SQL。

?? 第8、10~12 章介绍了如何扩展Drill 的功能。这些章节需要读者具备Java 开发的基本能力。

?? 第9 章介绍了在生产环境中安装和配置Drill 的一些琐碎的细节。如果你是一名系统管理员，这一章就是为你准备的。

?? 第13 章介绍了很多Drill 的应用案例。不管你是从事什么工作，阅读这章的内容都可以帮助你进一步领略Drill 的强大功能。

在线资源

本书中使用的所有代码和数据都可以从本书的GitHub 仓库（https://github.com/cgivre/drillbook）下载。可以在GitHub 的Issue 页上报代码中存在的问题。

Drill 本身也有很详尽的在线文档（https://drill.apache.org）可供参考。

本书内容约定

在本书中，按以下约定进行排版：

斜体（italic）

表示新名词、URL、电子邮件地址、文件名以及文件扩展名。

等宽字体（constant width）

用于程序代码，以及在正文中引用变量、函数名称、数据类型、环境变量、语句、关键字等代码中的元素。

等宽粗体（constant width bold）

需要用户输入的命令或其他文本。

等宽斜体（constant width italic）

需要替换成用户自定义的值或根据上下文决定的值。

使用示例代码

本书辅助学习材料（代码示例和练习等）可以从本书的GitHub 仓库https://github.com/cgivre/drillbook 下载。

本书存在的目的就是帮助你完成工作。总的来说，你可以在自己的程序或文档中使用本书所提供的示例代码。如果不是对这些代码进行大规模的分发，就不需要联系我们获取授权。比如，编写一个程序，里面使用了本书中几段示例代码是不需要申请授权的。出售或分发包含O’Reilly 图书完整示例代码的CD-ROM 则需要申请授权。引用书中的部分内容或示例代码来回来问题不需要授权。在你的产品文档中包含本书中大量的示例代码则需要授权。

如果你觉得你对示例代码的使用行为超出了合理的方式或超出了上述的允许不获取授权的场景，可以与我们取得联系：permissions@oreilly.com。

O’Reilly 在线学习平台（O’Reilly Online Learning）

近40 年来，O’Reilly Media 致力于提供技术和商业培训、

知识和卓越见解，来帮助众多公司取得成功。

我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问http://oreilly.com。

访问http://oreilly.com/safari 了解更多信息。

联系我们

任何有关本书的意见或疑问，请按照以下地址联系出版社。

美国：

O’Reilly Media, Inc.

1005 Gravenstein Highway North

Sebastopol, CA 95472

中国：

北京市西城区西直门南大街2 号成铭大厦C 座807 室（100035）

奥莱利技术咨询（北京）有限公司

我们为本书提供了一个网页，上面有勘误表、示例和其他相关的信息，请访问：http://bit.ly/learning-apache-drill。

有关本书的建议或者技术问题，请发邮件到bookquestions@oreilly.com。

有关其他图书、讲座、会议、新闻的信息，请访问我们的网站：http://www.oreilly.com。

我们的Facebook：http://facebook.com/oreilly。

我们的Twitter：http://twitter.com/oreillymedia。

我们的YouTube：http://www.youtube.com/oreillymedia。

致谢

感谢Arina Ielchiieva、John Omernik、Aman Sinha 和 Parth Chandra 在百忙之中抽出时间帮助我们进行技术审阅。感谢Jeff Bleiel 和整个O’Reilly 编辑团队与我们的紧密合作。最后还要感谢专注Drill 项目的贡献者，没有他们的帮助，就不会有本书的诞生。

来自Charles 的特别致谢

我想特别感谢我的妻子Alisheva 和孩子们：Mel、Dovie、Rozie 和Goldie，你们原谅我经常缺席家庭活动并因为撰写此书而工作到深夜，还支持我追求Drill 以及其他的极客爱好。没有你们的支持，这本书就无法完成。

我还要感谢Drill 开发委员会中与我一起工作的所有成员，他们教会了我很多有关Java 开发、GitHub 和编写生产级代码的知识。感谢合著者Paul，他提出了无数宝贵的建议，还告诉了我很多Drill 内部实现原理。

最后，感谢Ted Dunning 和Ellen Friedman 邀请我参与这个项目，感谢Drill 项目管理委员（PMC）会认可我对Drill 的贡献，让我成为Drill 的Committer 以及PMC的一员。

来自Paul 的特别致谢

我想特别感谢我的妻子Anne 和孩子们：Delaine、Forrest 和Pauline，因为我常常在晚上或周末消失，埋头撰写本书。

我还想感谢Drill 开发团队在过去的两年中对我的无私帮助，回答我在编写本书过程中遇到的各种问题。这本书是他们把知识传递给其他人的一个途径。感谢Drill 最初的开发者们，他们创造了这个出色的产品，也感谢后来一直参与改进Drill 的其他开发者。我非常荣幸可以成为Drill PMC 的一员，并与如此出色的团队一起工作。感谢Charles 不断推动这本书的创作进程直到完成，并在此过程中分享他从Drill 用户的视角所观察到的东西。

Charles Givre是Apache Drill的PMC成员，他是德意志银行中央安全办公室的首席数据科学家。他致力于培养数据科学家并教授数据分析技能，为此他还合伙创办自己的培训公司GTK Cyber。他在全球各种会议和高校教授上述主题的内容。

Paul Rogers是Apache Drill的PMC成员，他专注于Drill的执行引擎开发，同时也是一位数据库和BI方面的软件架构师。他曾经在Cloudera、MapR、Oracle、Actuate和Informix工作。

前言 1

第1 章 Apache Drill 入门 7

什么是Apache Drill 8

Drill 用途广泛 8

Drill 非常易用 10

有关Drill 的性能 11

大数据简史 11

大数据生态中的Drill 13

Drill 与类似工具的比较 13

第2 章安装与运行 15

准备系统环境 16

Windows 环境下的特殊配置 16

在Windows 上安装Drill 18

在Windows 上启动Drill 18

在macOS 或Linux 上安装嵌入模式的Drill 19

在macOS 或Linux 上以嵌入模式运行Drill 20

在macOS 或 Linux 上安装分布式模式的Drill 21

为Drill 准备集群环境 22

启动分布式模式的Drill 23

连接集群 23

小结 24

第3 章 Apache Drill 概述 25

Apache Hadoop 生态 25

Drill 是一个低延迟的查询引擎 26

使用HDFS 进行分布式数据处理 27

Drill 系统结构 27

Drill 操作概览 28

Drill 是一个查询引擎，不是数据库 29

Drill 操作概述 30

Drill 组件 30

SQL 会话状态 30

编译查询语句 31

查询语句执行 36

低延迟特性38

小结 41

第4 章查询包含分隔符的数据 42

通过Drill 查询数据的几种方式 42

其他操作接口 43

Drill SQL 查询格式 44

选择数据源44

定义工作区46

指定默认数据源 47

在查询中访问列 49

带表头并包含分隔符的数据 51

Table 函数 53

查询目录中的数据 53

理解Drill 的数据类型 55

使用字符串处理函数清洗和准备数据 57

复杂数据转换函数 59

操作Drill 中的日期和时间 60

把字符串转换为日期 61

对日期进行重新格式化 63

日期计算与操作 63

Drill 中的日期时间函数 64

创建视图 65

使用Drill 进行数据分析 66

通过聚合函数对数据进行统计 68

查询包含分隔符数据的常见问题 75

列名中的空格 75

列名中的非法字符 76

字段名中的保留字 76

小结 77

第5 章分析复合与嵌套数据 78

数组与Map 78

Drill 中的数组 79

在Drill 中访问Map（键– 值对） 81

查询嵌套数据 83

使用Drill 分析日志文件 91

配置Drill 读取httpd Web 服务器的日志 91

查询Web 服务器日志 92

用Drill 对其他类型的日志进行分析 97

小结 100

第6 章把Drill 连接到数据源 101

查询多种数据源 102

配置新的存储插件 102

用Drill 连接关系型数据库 103

通过Drill 查询Hadoop 数据 108

用Drill 连接并查询HBase 108

用Drill 查询Hive 数据 110

连接Kafka 查询流数据 113

提高Kafka 查询的性能 115

连接并查询Kudu 115

用Drill 连接并查询MongoDB 数据 116

把Drill 连接到云存储 116

用Drill 从OpenTSDB 查询时间序列数据 121

小结 122

第7 章连接Drill 123

理解Drill 的接口 123

JDBC 与Drill 124

ODBC 与Drill 125

Drill 的REST 接口 127

使用Python 连接Drill 128

使用drillpy 对Drill 发起查询 129

使用pydrill 连接Drill 130

其他通过Python 连接Drill 的方法 131

用R 语言连接Drill 133

使用sergeant 在R 中查询Drill 133

通过Java 连接Drill 135

在PHP 中查询Drill 136

使用连接器137

在PHP 中执行Drill 查询 137

在PHP 中操作Drill 138

使用Nodejs 查询Drill 139

在BI 工具中使用Drill 作为数据源 139

使用Apache Zeppelin 和Drill 分析数据 139

使用Apache Superset 分析数据 145

小结 151

第8 章用Drill 完成数据工程工作 152

读时Schema 152

SQL 关系模型 153

数据生命周期：数据探索到生产 154

Schema 推导 155

数据源推导 155

存储插件 156

存储配置 156

工作区 157

查询目录 159

默认Schema 159

文件类型推导 160

格式插件与格式配置 160

格式推导 161

文件格式变种 162

Schema 推导概述163

分布式扫描 165

带分隔符数据的Schema 推导 167

CSV 文件处理小结 173

JSON 文件的Schema 推导 175

二义性数值Schema 178

在文件间保证Schema 一致 184

JSON 对象 186

Drill 中的JSON 列表 189

JSON 小结 193

在Drill 中使用Parquet 文件格式 194

Parquet 中的Schema 进化 195

分区数据目录 195

定义表工作区 198

处理生产环境中的查询 199

捕捉Schema 映射视图 199

在脚本中运行复杂查询 200

小结 201

第9 章在生产环境部署Drill 202

安装Drill 202

前置需求 203

生产环境安装 204

配置ZooKeeper 205

内存配置 206

配置日志 208

测试安装是否成功 209

分发Drill 可执行文件和配置 210

启动Drill 集群 211

配置存储 212

使用Apache Hadoop HDFS 213

使用Amazon S3 214

准入控制 217

其他配置 219

用户自定义函数与自定义插件 219

安全 220

日志级别 220

控制CPU 使用 222

监控 223

监控Drill 的进程 224

监控JMX 指标 224

监控查询 225

其他部署选项 225

MapR 安装程序 226

Drill-on-YRAN 226

Docker 226

小结 227

第10 章搭建开发环境 228

安装Maven 228

创建Drill 的编译环境 229

设置Git 并获取源代码 229

从代码编译Drill 230

安装IDE 231

小结 231

第11 章编写用户自定义函数 232

用例：找出合法的信用卡号码 232

Drill 中的用户自定义函数是怎么工作的 234

Drill 的简单UDF 结构 234

pomxml 文件 235

函数文件 236

简单函数API 240

完整的代码241

构建与安装UDF 243

静态安装UDF 243

动态安装UDF 243

复合函数：返回Map 或数组的UDF 244

例子：解析User Agent 元数据 245

ComplexWriter 对象 246

编写聚合UDF 248

聚合函数API 249

聚合UDF 示例：肯德尔秩相关系数 249

小结 252

第12 章编写格式插件 253

正则表达式格式插件 253

基于Easy 框架创建格式插件 255

创建Maven 的pomxml 文件 256

创建插件包258

Drill 模块配置 258

格式插件配置 259

注意事项 259

创建正则表达式格式插件配置类 260

测试配置 262

解决配置问题 263

排查问题 264

创建格式插件类 264

创建测试文件 267

配置RAT 267

高效调试 267

创建单元测试 268

Drill 是如何找到插件的 270

记录读取器 270

测试读取器的壳 273

日志 274

出错处理 274

初始化 275

解析正则表达式 276

定义列名 276

投影 277

记录列投影映射 278

空投影 278

全投影 279

部分投影 279

打开文件 281

记录批 282

Drill 的列存结构 282

定义向量 283

读取数据 284

把数据放入向量 285

释放资源 286

测试读取器 286

测试通配符场景 286

测试显式投影 288

测试空投影288

扩展 288

其他细节 290

文件块 290

默认格式配置 290

下一步 292

生产版本 292

给Drill 贡献代码：使用Pull Request 292

维护你的分支 293

创建插件项目 293

小结 294

第13 章特殊用法 296

查找在特定区域拍摄的照片 296

分析Excel 文件 297

pomxml 文件 298

Excel 自定义记录读取器 299

使用Excel 格式插件 303

用Drill 分析网络数据包（PCAP 文件） 304

查询PCAP 数据文件的例子 304

使用Drill 分析Twitter 数据 308

在机器学习流程中使用Drill 309

通过Drill 进行预测 310

建立与序列化模型 310

编写UDF 封装类 311

通过UDF 进行预测 313

小结 313

附录A Drill 函数列表 315

附录B Drill 格式化字符串 331

你还可能感兴趣

高职高专电子信息类“十二五”规划教材：数据库原理及应用
数据工程之道
数据库原理与应用（第3版）
数据仓库与数据挖掘
数据库原理与应用
高级数据库技术

我要评论

您的姓名	验证码：
留言内容