Hadoop大数据开发

-
【作 者】主 编 刘春阳 张学龙 刘丽军
【I S B N 】978-7-5170-6903-4
【责任编辑】张玉玲
【适用读者群】本专通用
【出版时间】2018-09-19
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】184
【千字数】280
【印 张】11.5
【定 价】¥32
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书通过原理加案例方式系统讲解了Hadoop大数据开发,精心安排了原理分析、环境搭建、案例开发等环节,使读者对解决大数据问题有清晰的思路。
全书共7章:前6章系统讲解大数据Hadoop架构,包括大数据处理平台Hadoop、分布式文件系统HDFS,并行计算模型MapReduce、资源调度框架Yarn;第7章是MapReduce应用实例,通过案例帮助读者进一步理解Hadoop平台。全书突出三个特点:道理简单明了、思路清晰透彻、案例新颖实用。
本书可作为普通高校大数据相关专业的教材,可供想深入了解Hadoop架构编程的读者参考,还可作为相关培训班的培训教材。
本书通过原理加案例的方式系统讲解Hadoop 大数据开发,精心安排了原理分析、环境搭建、案例开发等环节,道理简单明了、思路清晰透彻、案例新颖实用。
前 言
这是一个大数据爆发的时代,面对信息的激流、多元化数据的涌现,大数据已经为个人生活、企业经营,甚至国家与社会的发展带来了机遇和挑战,成为信息产业中极具潜力的增长点。大数据时代在众多领域掀起变革的巨浪,但我们要冷静地看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件简单地堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。
Hadoop技术能够成功的最根本原因在于它是把传统的集中式运算转化成分布式计算的一种有效手段。Hadoop的分布式文件系统能够以可靠快捷的方式将数据分布存储到不同计算节点中,Hadoop MapReduce编程又能够以简单的方法为人们提供分布式编程接口,从而降低了分布式开发门槛。
本书共7章,不仅有详细的理论讲解,还有大量的实战操作,具体内容如下:
第1章深入探究大数据的概念、产生的背景和发展现状,应用案例指出了大数据面临的机遇与挑战,介绍大数据处理技术和计算模式,最后阐述大数据与云计算之间的区别和联系。
第2章详细介绍大数据处理平台Hadoop的生态系统和架构。
第3章讲解Hadoop分布式平台的搭建和验证。
第4章描述HDFS的架构、工作机制、文件读写流程和Shell命令。
第5章讲解HDFS Windows远程开发、HDFS Java API接口和编程实战。
第6章讲解MapReduce编程模型、工作原理和Yarn资源管理。
第7章讲解常用的MapReduce Java API接口、应用实例和高级编程。
本书的编写得到北京百知教育科技有限公司的大力支持,在此表示感谢。
由于时间仓促及编者水平有限,本书难免存在不足之处,恳请读者批评指正。
编 者
2018年7月
第1章 大数据概论 1
1.1 大数据概述 1
1.1.1 大数据产生的时代背景 1
1.1.2 大数据的特征 2
1.1.3 大数据应用案例 2
1.1.4 大数据的机遇与挑战 5
1.2 大数据处理技术 5
1.3 大数据与云计算 6
1.4 本章小结 7
第2章 大数据处理平台Hadoop 8
2.1 Hadoop生态系统 8
2.2 Hadoop架构 11
2.2.1 HDFS 12
2.2.2 MapReduce 12
2.2.3 Yarn 13
2.3 Hadoop版本变迁 13
2.3.1 Hadoop发展史 13
2.3.2 如何选择Hadoop开发版本 14
2.4 本章小结 14
第3章 Hadoop平台搭建 15
3.1 基础环境配置 15
3.2 Hadoop配置文件修改 15
3.3 Hadoop平台运行及验证 22
3.4 本章小结 23
第4章 分布式文件系统HDFS 24
4.1 HDFS架构 24
4.1.1 HDFS的基本框架 24
4.1.2 HDFS的特点 26
4.2 HDFS的工作机制 27
4.2.1 HDFS读写过程分析 27
4.2.2 NameNode的工作机制 29
4.2.3 元数据的CheckPoint 32
4.2.4 DataNode的工作机制 33
4.3 HDFS shell命令 34
4.3.1 帮助相关命令 35
4.3.2 查看相关命令 36
4.3.3 文件及目录相关命令 37
4.3.4 统计相关命令 46
4.3.5 快照命令 47
4.4 本章小结 48
第5章 HDFS Java API编程 49
5.1 远程开发环境搭建 49
5.2 HDFS Java API接口 53
5.3 HDFS Java API编程 53
5.3.1 获取文件系统 55
5.3.2 列出所有DataNode的名字信息 56
5.3.3 创建文件目录 57
5.3.4 删除文件或文件目录 58
5.3.5 查看文件是否存在 59
5.3.6 文件上传至HDFS 59
5.3.7 从HDFS下载文件 60
5.3.8 文件重命名 61
5.3.9 遍历目录和文件 62
5.3.10 根据filter获取目录下的文件 63
5.3.11 取得数据块所在的位置 65
5.4 程序打包 66
5.5 本章小结 68
第6章 并行计算MapReduce 69
6.1 MapReduce编程模型 69
6.1.1 并行编程模型概述 69
6.1.2 并行计算编程模型 70
6.1.3 MapReduce编程模型 72
6.2 MapReduce工作原理 73
6.3 Yarn 75
6.3.1 Yarn基本框架与组件 75
6.3.2 Yarn工作流程 76
6.3.3 新旧Hadoop MapReduce框架对比 77
6.4 MapReduce Shuffle性能调优 79
6.5 本章小结 80
第7章 MapReduce Java API编程 81
7.1 MapReduce Java API接口讲解 81
7.1.1 InputFormat接口 82
7.1.2 Mapper类 85
7.1.3 Partitioner类 87
7.1.4 Combiner类 88
7.1.5 Reducer类 89
7.1.6 OutputFormat接口 90
7.1.7 GenericOptionsParser类 91
7.1.8 DistributedCache类 91
7.2 MapReduce Java API应用实例 92
7.2.1 统计单词出现频率 92
7.2.2 统计出现的单词 96
7.2.3 统计平均成绩 99
7.2.4 排序 101
7.2.5 求年最高温度 103
7.2.6 关系运算—投影运算 106
7.2.7 关系运算—并运算 108
7.2.8 关系运算—交运算 110
7.2.9 关系运算—差运算 111
7.2.10 关系运算—连接运算 114
7.3 MapReduce Java API高级编程 116
7.3.1 多输入路径方式 116
7.3.2 使用Partitioner实现输出到多个
文件 119
7.3.3 自定义OutputFormat文件输出 122
7.3.4 文本文件转化成XML文件 127
7.3.5 通过MultipleOutputs完成多文件
输出 130
7.3.6 将MapReduce产生的结果集导入
到MySQL中 135
7.3.7 自定义比较器 140
7.3.8 MapReduce分析明星微博数据 145
7.3.9 MapReduce最佳成绩统计 152
7.3.10 MapReduce链接作业 158
7.3.11 利用Job嵌套求解二度人脉 162
7.4 本章小结 168
附录 CentOS7安装 169
- 大学生创新创业基础 [主编 姜国权 姜福佳]
- 信息技术(微课版) [王云 徐江鸿 李清霞 罗学锋 ]
- 管理基础与实务 [主编 王凤基 颜汉军]
- 高等数学导学篇(下册) [主编 李文婧 胡雷 尹金生]
- 高等数学导学篇(上册) [主编 李文婧 胡雷 尹金生]
- 高等数学(下册) [主编 李爱芹 胡雷 尹金生]
- 高等数学(上册) [主编 李爱芹 胡雷 尹金生]
- 人工智能应用基础 [主编 杨缨 李佳]
- 中华水文化(慕课版)(第二版) [毕雪燕 杨华轲 罗玲谊 等编著]
- 电路与电子技术Ⅱ——电路分析基础 [主编 陈晓 金哲]
- 人工智能概论(第二版) [主编 任云晖 丁红 徐迎春 ]
- 信息时代美育之道 [主编 刘宏宇 黎娅]
- 数字媒体交互设计项目式教程(微课版) [主编 苏陆]
- Amazing!儿童英语自然拼读分级教材(全8册) [王玲 编著]
- Spark大数据处理技术 [主编 刘仁山 周洪翠 庄新妍]
- 人工智能算法与实践 [主编 梁琨 张翼英]
- 计算机网络技术项目化教程(微课版) [主编 王艳萍 安华萍]
- 数据清洗 [黄源 刘智杨 孙大松]
- 电路设计与PCB制作实操教程 [主编 周永宏]
- 电路与电子技术Ⅰ—数字电子技术 [主编 郑玉珍 王淑琴]
- Java编程基础案例式教程 [主编 陈艳华 唐春兰]
- Python语言同步案例习题精解 [主编 肖朝晖]
- Excel在会计工作中的应用(第三版) [主 编 赵艳莉 耿聪慧]
- 应用数学 [主编 刘东海 刘丽瑶]
- Web用户界面设计与制作 [主编 赵娟]
- 计算机网络基础创新教程(模块化+课程思政版) [主编 唐继勇 李旭]
- 计算机应用技术基础案例教程 [主编 周丽娟 王璐]
- Unity应用开发与实战(微课版) [主 编 程永恒]
- PHP程序设计项目化教程 [主 编 杜海颖]
- 文学基础与影视欣赏 [杨华轲 朱伟利 毕雪燕 罗玲谊]