大数据离线分析_傅德谦_9787302483298_北京中凯新特文化有限公司

本书内容包括大数据离线分析概述、Hive数据库表、基于HiveQL的常规操作、视图、索引和Pig等数据处理分析等基础工具知识, 还有Hive函数、Pig Latin编程、ETL工具Sqoop和工作流引擎Oozie等相关高级技术。

　　为什么要写这本书
　　数据时代(DataTime)的到来使大数据技术得到了学术界和产业界的重视，并获得了快速发展。随着全球数字化、移动互联网和物联网在各行各业的应用发展，使累积的数据量越来越大。诸多先行的企业、行业和国家已经证明，利用大数据技术可以更好地服务客户、发现新商业机会、扩大新市场、转换新动能。
　　当前正处于大数据产业发展的前期，市场需求日趋旺盛，但是人才缺口巨大，技术支撑严重不足，大数据专业知识的广泛传播非常紧迫。
　　本书基于教育部“2016年产学合作协同育人项目”——普开数据教学内容和课程体系改革项目，作为项目成果公开出版。北京普开数据技术有限公司在多届全国高校教师培训工作中起到了“种子”教师培养的作用，本书编者都是在培训过程中结识并展开合作的；同时在本书编写过程中，公司给予了强力支持，在此表示感谢。
　　读者对象
　　(1)学习大数据离线分析的本科和高职高专学生。
　　(2)从事数据分析相关工作的技术人员。
　　如何阅读本书
　　本书主要介绍了基于Hadoop生态圈的大数据离线处理技术。主流的大数据离线分析技术一般包括：使用HDFS存储数据，使用MapReduce做批量计算；需要数据仓库的存入Hive,从Hive进行分析和展现；涉及复杂业务场景时，使用Sqoop、Pig、Oozie等工具会更加灵活方便。
　　本书略过了HDFS存储数据、MapReduce批量计算的相关内容。HDFS是Hadoop提供的分布式存储框架，它可以用来存储海量数据，MapReduce是Hadoop提供的分布式计算框架，它可以用来统计和分析HDFS上的海量数据。该部分内容为Hadoop基础知识，读者如果需要深入学习，可以参考其他书籍或材料(如清华大学出版社2016年6月出版的《大数据技术基础》)。
　　本书内容是重点围绕Hive数据仓库展开的，Hive在Hadoop上提供了SQL接口，开发人员只需要编写简单易上手的SQL语句就可以实现创建表、删除表、加载数据、下载数据、分析数据等功能，读者可以从目录的章节名称中快速检索并学习各方面的知识。
　　同时，本书针对离线分析过程中的工程任务场景还提供了一些辅助工具介绍。Sqoop解决在Hadoop和关系数据库之间传递数据的问题，如果读者有这方面的基础或对其他ETL工具更熟悉，可以略过。Pig为大型数据集的处理提供了更高层次的抽象，以更灵活方便的方法实现加载数据、表达转换数据和存储最终结果，有这方面基础或暂无需求的读者可以略过书中第6、7章。Oozie实现对系统中多任务的管理，当平台中任务数量很大、需要维大数据
　　离线分析
　　前言
　　护和运行时，Oozie可以方便地完成调度监控这些任务的功能，对于仅处理简单任务场景的读者可以略过该部分内容。
　　偏重实践操作是本书的特色，书中所讲内容基本都配有实践操作演示。通过每部分知识的学习和相应操作环节，可以很快地掌握技术，并有很强的工程应用场景感。本书最后提供了一个综合应用案例，读者可以应用所学知识实现一个工程项目，从而有效训练工程应用开发能力。
　　勘误和支持
　　由于本书编者水平有限，书中难免会出现一些错误或者不准确的地方，恳请读者批评、指正。如果在教材使用中遇到问题，或者要学习更多相关内容，请关注微信号或联系普开数据在线实验平台。
　　编者

你还可能感兴趣

我要评论