大数据技术与应用

中国水利水电出版社

【作者】主　编　蔡劲松　李伟

【I S B N 】978-7-5226-1108-2

【责任编辑】赵佳琦

【适用读者群】高职高专

【出版时间】2023-02-09

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】216

【千字数】296

【印张】13.5

【定价】￥42

【丛书】高等职业教育大数据与人工智能专业群系列教材

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

本书紧扣Hadoop生态圈相关系统对大数据处理架构进行全方位介绍，重点围绕大数据基本概念、集群搭建、存储管理、各类数据分析计算以及可视化等方面的基本理论、方法和关键技术，通过丰富的应用案例展示了大数据的应用场景以及数据价值。全书共分10章，分别是认识大数据、Hadoop集群搭建、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、HBase分布式数据库、Hive数据仓库、Sqoop数据迁移、Storm流计算和数据可视化。

全书遵循“理论够用、实用第一”的原则选择内容，编排合理，表述深入浅出，所有操作命令全部按序列出，并配有解释和截图。本书指导性、实用性强，能使读者快速、轻松地掌握Hadoop大数据平台运维和分析的基本技术。

本书可作为高等职业教育本科、专科院校包括大数据技术与应用专业在内的电子信息类专业相关课程教材，也可作为非计算机专业通识课程教学用书以及大数据爱好者的参考读物。

本书附有配套电子课件、源码、教案、教学设计等资源，读者可从中国水利水电出版社网站（www.waterpub.com.cn）或万水书苑网站（www.wsbookshow.com）免费下载。

体系完整—— 包括大数据采集、预处理、存储管理、挖掘分析以及可视化等处理流程中的基本理论、方法和关键技术，涵盖大数据技术与应用方向比较完整的理论体系。

结合实际—— 在各部分知识的讲解中，融入了大量入门级的教学案例，做到深入浅出、图文并茂，帮助读者对大数据知识和技术进行深入理解，体现专业认知的引导性。

资源丰富—— 作为校企合作、资源共建的成果，配微课视频、电子课件、源码等资源，方便师生的教与学。

前　　言

随着互联网技术的飞速发展，构建信息内容的数据量也在急速增加，这类量级巨大、急速增加的数据信息被称为大数据。在各种处理大数据的系统中，Hadoop生态圈相关系统的表现无疑最为突出。本书定位于Hadoop系统的入门教程，主要内容包括大数据基础知识、Hadoop安装与配置管理、HDFS技术、MapReduce技术、ZooKeeper技术、HBase技术、Hive分布式数据仓库技术、Sqoop数据迁移工具、Storm实时数据处理技术等最为常见与流行的Hadoop大数据系统架构。

本书内容编写深入浅出，注重实战。每章均配以实例进行讲解，读者在使用本书时，可以根据相应的操作过程进行操作，高效地掌握相关知识点及操作技能。学生通过对与大数据相关的基本知识、典型技术、具体应用进行全面而直观的了解，在入门性的学习过程中提高对专业的认识。本书注重知识结构的基础性，用案例开阔学生视野，启发创新思维。本书在写作思路和内容编排上具有以下几个方面的特色。

（1）知识体系完整。本书内容包括大数据采集、预处理、存储管理、挖掘分析以及可视化等处理流程中的基本理论、方法和关键技术，涵盖大数据技术与应用方向比较完整的理论体系，脉络清晰，知识完整。

（2）理论与案例结合。本书在各部分知识的讲解中，融入了大量入门级的教学案例，做到深入浅出、图文并茂，帮助读者对大数据知识和技术进行深入理解，体现专业认知的引导性。

（3）注重实践应用。本书在各章节中配置了运用大数据工具解决问题的综合实践案例，通过对实践内容的细致讲解，并辅助视频资料，能够帮助读者完成动手实践的环节，加深对专业知识的理解。

（4）适用范围广。本书既可作为高等职业教育本科和专科电子信息类各专业相关课程教材，也可作为非计算机专业的通识课程教学用书以及大数据爱好者的参考读物。

本书由蔡劲松、李伟任主编，朱瑞玥、张平、宋文宇任副主编，全书统稿和定稿工作由蔡劲松完成。此外，邹汪平、张成、王钧、戴永恒等人也参与了资料整理工作。本书是校企合

作、资源共建的成果之一，在编写过程中得到了合肥课工场教育科技有限公司和北京课工场教育科技有限公司大数据开发教研团队的大力支持，在此一并表示感谢。

由于编者水平有限，书中难免存在错误和不妥之处，恳请读者批评指正。编者电子邮箱：94364330@qq.com。

编者

2022年8月

前言
第1章　认识大数据
1.1　初识大数据 001
1.1.1　大数据产生的时代背景 001
1.1.2　大数据的发展历程 002
1.1.3　大数据未来的发展趋势 004
1.2　大数据基本概念 005
1.2.1　什么是大数据 005
1.2.2　大数据的特征 006
1.2.3　大数据的重要性 007
1.3　大数据关键技术与计算模式 009
1.3.1　大数据采集、预处理与存储管理 010
1.3.2　MapReduce分布式计算框架 012
1.3.3　大数据分析 013
1.3.4　大数据计算模式 014
1.4　大数据与云计算、物联网和人工智能的
关系 014
1.4.1　大数据与云计算的关系 014
1.4.2　大数据与物联网的关系 015
1.4.3　大数据与人工智能的关系 015
小结 016
习题 016
第2章　Hadoop集群搭建
2.1　了解Linux操作系统 018
2.1.1　Linux的诞生和发展 018
2.1.2　Linux的整体架构 020
2.1.3　Linux的特点 021
2.1.4　Linux文本编辑器 022
2.1.5　Linux权限与目录 024
2.1.6　Linux基本命令 026
2.2　认识Hadoop集群 032
2.2.1　Hadoop生态圈 032
2.2.2　Hadoop的运行模式 034
2.2.3　Hadoop的优势 034
2.3　Hadoop集群的搭建和配置 035
2.3.1　主机的硬件配置与虚拟化软件 035
2.3.2　Hadoop集群安装准备 035
2.3.3　Hadoop集群搭建和配置 050
2.3.4　Hadoop集群测试 054
小结 056
习题 056
第3章　HDFS分布式文件系统
3.1　认识HDFS 058
3.1.1　HDFS产生的背景 058
3.1.2　HDFS简介 059
3.1.3　HDFS的优缺点 059
3.2　HDFS的基本原理 060
3.2.1　HDFS的体系架构 060
3.2.2　HDFS文件读写原理 062
3.3　HDFS的Shell命令行操作 063
3.4　HDFS的Java API操作 065
3.4.1　Java API操作环境搭建 066
3.4.2　HDFS的Java API介绍 071
3.4.3　使用Java API操作HDFS 072
小结 074
习题 074
第4章　MapReduce分布式计算框架
4.1　认识MapReduce 076
4.1.1　MapReduce概述 076
4.1.2　MapReduce的设计思想 077
4.1.3　MapReduce编程模型 077
4.1.4　MapReduce应用实例—词频统计 078
4.2　MapReduce工作流程 086
4.2.1　MapReduce工作过程 086
4.2.2　Map工作过程 086
4.2.3　Reduce工作过程 087
4.2.4　Job工作过程 089
4.2.5　Shuffle工作过程 090
4.2.6　MapReduce的输入/输出格式 091
4.2.7　MapReduce的优化 093
4.3　YARN的设计思想与工作流程 094
4.3.1　YARN设计思想 094
4.3.2　YARN体系结构 095
4.3.3　YARN工作流程 096
4.4　MapReduce经典案例 097
4.4.1　数据去重 097
4.4.2　案例实现—数据去重 098
4.4.3　倒排索引 100
4.4.4　案例实现—倒排索引 103
小结 106
习题 106
第5章　ZooKeeper分布式协调服务
5.1　ZooKeeper概述 108
5.1.1　ZooKeeper作用 108
5.1.2　ZooKeeper特点 109
5.1.3　ZooKeeper体系结构 109
5.1.4　ZooKeeper数据模型 110
5.1.5　ZooKeeper工作原理 111
5.2　ZooKeeper安装与运行 112
5.2.1　ZooKeeper安装包的下载安装 112
5.2.2　ZooKeeper相关配置 112
5.2.3　ZooKeeper服务的启动和关闭 113
5.3　ZooKeeper的Shell操作 115
小结 118
习题 119
第6章　HBase分布式数据库
6.1　认识NoSQL 120
6.1.1　NoSQL的特点 120
6.1.2　NoSQL的常见类型 121
6.2　HBase概述 122
6.2.1　HBase的特点与其他组件关系 123
6.2.2　HBase的数据模型 124
6.2.3　HBase的体系结构 125
6.3　HBase集群安装 127
6.4　HBase的Shell操作 129
6.4.1　HBase Shell启动 130
6.4.2　HBase Shell基本操作 131
小结 136
习题 137
第7章　Hive数据仓库
7.1　认识Hive 138
7.1.1　什么是Hive 138
7.1.2　Hive架构设计 139
7.1.3　Hive数据类型 140
7.1.4　Hive服务组成 141
7.2　Hive安装 142
7.2.1　Hive安装模式简介 142
7.2.2　Hive嵌入模式 142
7.2.3　Hive本地和远程模式 143
7.3　HiveQL表操作 147
7.3.1　Hive数据库操作 147
7.3.2　Hive内部表操作 148
7.3.3　Hive外部表操作 150
7.3.4　Hive桶表操作 152
7.4　HiveQL数据操作 154
7.4.1　HiveQL基本语法概述 154
7.4.2　HiveQL查询实例 155
小结 161
习题 161
第8章　Sqoop数据迁移
8.1　Sqoop概述 163
8.1.1　Sqoop简介 163
8.1.2　Sqoop的优势 163
8.1.3　Sqoop的版本 164
8.1.4　Sqoop的构架与工作机制 164
8.2　Sqoop安装与配置 165
8.2.1　Sqoop安装 165
8.2.2　Sqoop配置 165
8.2.3　Sqoop配置测试 166
8.3　Sqoop的使用 167
8.3.1　数据准备工作 167
8.3.2　MySQL表数据导入HDFS 168
8.3.3　增量导入 170
8.3.4　MySQL表数据导入Hive 171
8.3.5　Sqoop数据导出 172
小结 173
习题 173
第9章　Storm流计算
9.1　流计算概述 175
9.1.1　流计算的概念 175
9.1.2　流计算的处理流程 176
9.2　Storm流计算框架 177
9.2.1　Storm概述 177
9.2.2　Storm的特点 177
9.2.3　Storm的架构 178
9.2.4　Storm工作流 178
9.2.5　Storm数据流 179
9.3　Storm集群搭建 180
9.3.1　集群规划 180
9.3.2　Storm集群搭建 181
9.4　Storm实战 183
9.4.1　需求分析 183
9.4.2　数据结构 183
9.4.3　项目实现 184
小结 187
习题 187
第10章　数据可视化
10.1　数据可视化简介 189
10.1.1　数据可视化的基本概念 189
10.1.2　数据可视化的类型 190
10.2　数据可视化流程 190
10.3　可视化技术和工具 192
10.3.1　Excel 192
10.3.2　HTML5 192
10.3.3　Tableau 192
10.3.4　ECharts 193
10.3.5　Python 194
10.3.6　R语言 194
10.4　数据可视化实例 194
10.4.1　系统架构 194
10.4.2　创建数据表 195
10.4.3　平台环境搭建 195
10.4.4　基于EChart数据可视化的实现 202
10.4.5　功能展示 206
小结 206
习题 206

关闭

打印