大数据技术导论

-
【作 者】主编 樊继慧 李旭耀
【I S B N 】978-7-5226-1101-3
【责任编辑】王玉梅
【适用读者群】本专通用
【出版时间】2022-11-01
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】152
【千字数】237
【印 张】9.5
【定 价】¥32
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书根据现有的大数据技术理论,综合介绍了大数据技术的相关基础理论知识,并提供了部分实践操作介绍。本书共8 个章节,内容包含大数据的概念和特征,大数据计量,大数据生命周期,大数据与云计算,Hadoop,HDFS,MapReduce,大数据编程语言Python、Spark、R 语言,数据预处理,聚类分析,k- 邻近分类算法,数据可视化,大数据应用,大数据安全与威胁,爬虫技术,MINIST 数字识别技术。本书分别在大数据采集与预处理、数据挖掘与分析等重要章节中安排了入门级的实践操作内容,以便读者更好地学习和掌握大数据关键技术。
内容实用——理论与实践结合,重点突出应用
体系完善——构建完整的大数据专业解决方案
产教融合——高校企业共参与,对标行业标准
当前,新一代信息技术正在全球孕育兴起,科技创新、产业形态和应用格局正发生着重大变革。随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,并引起了学术界、产业界、政府及行业用户等的高度关注。世界主要发达国家已经相继制定了促进大数据产业发展的政策法规,积极构建大数据生态,实施大数据国家战略。
大数据技术正处于快速发展之中,不断有新的技术涌现。基于互联网技术而发展起来的大数据技术,将会有颠覆性的影响。
本书定位为大数据专业课程的导论课教材,以“构建知识体系,阐明基本原理,开展初级实践,了解相关应用”为原则,旨在为读者搭建起通往大数据知识空间的桥梁,为读者在大数据领域的“精耕细作”奠定基础、指明方向。本书主要帮助读者掌握大数据的基本原理和基本知识,熟悉大数据技术在多个行业的应用,加深读者对大数据的理解。本书注重知识结构的基础性与完整性,确保技术内容的通用性、普适性与先进性,遵循教育规律,加强能力培养,同时附加大数据实操案例,开阔读者视野,启发创新思维。
本书共8 个章节,从概念、技术、应用以及发展等方面,全面介绍了当前大数据的体系与基本发展情况。第1 章主要介绍与大数据相关的基础概念,包括大数据的特征、计量、生命周期以及当前时代大数据的重大变革;第2 章主要介绍大数据的生态系统,包括Hadoop、HDFS、MapReduce 以及编程语言Python、Spark 和R 语言;第3 章主要介绍大数据采集的工具技术和大数据预处理阶段的相关技术与方法,包括数据采集的分类、工具,数据清洗的任务、过程以及网络爬虫的实例介绍;第4 章详细介绍了数据挖掘与分析的相关知识,包括大数据分析的概念、流程、特点、难点,数据认知以及数据建模知识,附加数据挖掘与分析的案例详解;第5 章围绕大数据可视化展开讨论,介绍其作用与分类,并剖析其发展历史以及未来的发展方向与挑战;第6 章主要介绍大数据分别在互联网行业、金融行业、保险行业以及旅游行业的应用;第7 章根据目前大数据发展的现状,对大数据安全以及大数据所面临的安全威胁做出了详细剖析;第8 章为大数据案例实操分析,主要通过实践案例来加深读者对前面章节的学习理解。
本书由樊继慧、李旭耀主编。本书主编结合自己在广州理工学院多年的工作经验,以大量事实数据为基础,进行研究工作;高新凯老师为本书资源建设做了很多有益工作。中国水利水电出版社的有关负责同志对本书的出版给予了大力支持。本书在编写过程中参考了大量国内外计算机网络文献资料,在此,谨向这些著作者以及为本书出版付出辛勤劳动的同志深表感谢!
期待读者在本书的介绍中能得到关于大数据的基础理解与收获,由于编者能力有限,书中难免存在不足之处,望广大读者不吝赐教。
第1 章 概论 .................................................................. 1
1.1 揭秘大数据 ............................................................... 1
1.1.1 大数据概念和特征 .......................................... 4
1.1.2 大数据的计量 .................................................. 6
1.1.3 大数据生命周期 .............................................. 7
1.1.4 大数据与云计算 .............................................. 9
1.1.5 大数据时代的重大变革 ................................ 11
1.2 大数据关键技术 ..................................................... 13
练习1 ............................................................................... 13
第2 章 大数据生态系统 .............................................. 14
2.1 Hadoop .................................................................... 14
2.1.1 Hadoop 简介................................................... 15
2.1.2 Hadoop 优势................................................... 16
2.2 HDFS ....................................................................... 16
2.2.1 HDFS 体系结构 ............................................. 17
2.2.2 HDFS 存储原理 ............................................. 17
2.2.3 HDFS 常用操作 ............................................. 18
2.3 MapReduce .............................................................. 18
2.3.1 MapReduce 简介 ............................................ 19
2.3.2 MapReduce 的适用场景 ................................ 19
2.3.3 MapReduce 的优点和缺点 ............................ 19
2.4 大数据编程语言 ..................................................... 20
2.4.1 Python ............................................................. 20
2.4.2 Spark ............................................................... 22
2.4.3 R 语言............................................................. 25
练习2 ............................................................................... 30
第3 章 大数据采集与预处理 ....................................... 31
3.1 数据采集 ................................................................. 31
3.1.1 数据采集分类 ................................................ 32
3.1.2 数据采集方法 ................................................ 32
3.1.3 数据采集工具 ................................................ 34
3.2 数据清洗 ................................................................. 35
3.2.1 数据清洗任务 ................................................ 35
3.2.2 数据清洗过程 ................................................ 35
3.3 数据变换 ................................................................. 37
3.3.1 规范化 ............................................................ 37
3.3.2 数据变换分类 ................................................ 38
3.4 数据分析与采集实例:线性回归和逻辑回归 ..... 39
练习3 ............................................................................... 47
第4 章 数据挖掘与分析 .............................................. 48
4.1 大数据分析概述 ..................................................... 48
4.1.1 数据分析原则 ................................................ 48
4.1.2 大数据分析特点 ............................................ 49
4.1.3 大数据分析流程 ............................................ 50
4.1.4 数据分析师基本技能和素质 ........................ 51
4.1.5 大数据分析难点 ............................................ 52
4.2 数据认知 ................................................................. 53
4.2.1 数据预处理 .................................................... 55
4.2.2 概率分析 ........................................................ 56
4.2.3 对比分析 ........................................................ 56
4.2.4 相关分析 ........................................................ 57
4.3 数据建模 ................................................................. 57
4.3.1 模型分类 ........................................................ 58
4.3.2 决策树 ............................................................ 58
4.3.3 关联分析 ........................................................ 62
4.3.4 回归分析 ........................................................ 67
4.3.5 聚类分析 ........................................................ 69
4.3.6 k- 近邻分类算法 ............................................ 70
4.4 数据挖掘与分析案例分析 ..................................... 71
练习4 ............................................................................... 73
第5 章 数据可视化技术 .............................................. 74
5.1 数据可视化概述 ..................................................... 74
5.2 数据可视化的作用 ................................................. 75
5.3 数据可视化的分类 ................................................. 75
5.4 数据可视化的发展历史 ......................................... 76
5.5 数据可视化发展方向与挑战 ................................. 76
5.6 数据可视化的流程与原则 ..................................... 77
5.7 大数据可视化实操 ................................................. 78
5.7.1 Tableau 安装与ODBC 创建 ......................... 79
5.7.2 Tableau 绘图实操演示 ................................... 86
练习5 ............................................................................... 92
第6 章 大数据应用 ..................................................... 93
6.1 互联网行业大数据应用 ......................................... 93
6.2 金融行业大数据应用 ............................................. 97
6.3 保险行业大数据应用 ............................................. 99
6.4 旅游行业大数据应用 ........................................... 101
6.5 政府大数据应用 ................................................... 103
6.5.1 发展历程 ...................................................... 104
6.5.2 行业痛点 ...................................................... 106
6.5.3 发展机会 ...................................................... 106
6.5.4 社会价值 ...................................................... 107
6.5.5 机遇与挑战 .................................................. 108
6.6 大数据应用平台 ................................................... 109
练习6 ..............................................................................111
第7 章 大数据安全 ................................................... 112
7.1 大数据安全的重要意义 ....................................... 112
7.2 大数据面临的挑战 ............................................... 114
7.3 大数据的安全威胁 ............................................... 116
7.3.1 大数据基础设施安全威胁 .......................... 117
7.3.2 大数据存储安全威胁 .................................. 118
7.3.3 大数据的隐私泄露 ...................................... 121
7.3.4 大数据的其他安全威胁 .............................. 125
练习7 ............................................................................. 127
第8 章 大数据案例实操分析 ..................................... 128
8.1 大数据案例分析的前期准备工作 ....................... 128
8.2 案例一:爬虫技术 ............................................... 130
8.2.1 认识爬虫 ...................................................... 130
8.2.2 认识HTTP ................................................... 132
8.2.3 实现HTTP 请求 .......................................... 133
8.2.4 常规动态网页爬取 ...................................... 135
8.3 案例二:MINIST 数字识别技术 ........................ 140
练习8 ............................................................................. 143
参考文献 ..................................................................... 144
- 零基础玩转国产大模型DeepSeek [徐永冰 张帅 编著]
- 网络工程师5天修炼(适配第6版考纲) [主编 朱小平 施游]
- 信息系统项目管理师考试32小时通关(适用第4版考纲) [薛大龙]
- 信息系统管理工程师考试32小时通关(适配第2版考纲) [薛大龙 刘伟]
- 土木工程材料检测实训 [洪晓江 达则晓丽 钱波]
- 科技信息检索与论文写作实用教程 [李振华]
- 传统山水画论解读与实践 [陈钠 著]
- Python数据库编程 [主编 殷树友 邢 翀]
- 计算机基础实训指导 [主编 袁春萍 朱妮]
- 嵌入式人工智能技术应用(数字教材) [主编 胡娜 杨国勇 晏廷荣]
- Vienna整流器技术 [桂存兵 著]
- 变频器与伺服应用 [陈刚 叶云飞]
- 物联网工程设计与实践 [汤琳 李敏]
- 炉边夜话——深入浅出话AI [汪建 著]
- 电商运营与管理 [钟肖英 陈潇]
- Java面向对象程序设计 [主编 姜春磊 陈虹洁]
- 信息技术基础(Windows 10+WPS Office)(微课版) [主编 石利平 田辉平 谢盛嘉]
- 人工智能应用 [主编 陈 萍 刘培培 陈孟军]
- 大学生职业发展与就业指导 [主编 刘志坚]
- 高级办公应用项目教程 [主编 屈晶 赵成丽]
- 微信小程序开发项目实战(微课版) [主编 黄龙泉 郭峰 朱倩]
- 企业档案工作实战宝典百问百答 [华俊 卢秀英 邵甜甜 著]
- 计算机网络原理及应用 [主编 唐继勇 叶坤 孙梦娜]
- 大学生创业基础 [主编 王丽莉 王 杨]
- 船舶辅机 [主编 王连海 于洋 姜淑翠]
- 大学生就业指导 [主编 王丽莉 董宴廷]
- 系统架构设计师章节习题与考点特训 [主编 薛大龙 邹月平]
- 高校学生工作探索与实践 [郭亮 著]
- 大学生情商管理 [方雄 著]
- 2023年长沙市会展业发展报告 [主编 周栋良]