数据清洗

-
【作 者】黄源 刘智杨 孙大松
【I S B N 】978-7-5226-0382-7
【责任编辑】周春元
【适用读者群】本专通用
【出版时间】2022-02-15
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】192
【千字数】300
【印 张】12
【定 价】¥38
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
内 容 提 要
本书编写目的是向读者介绍大数据清洗的基本概念和相应的技术应用,共分8章:数据清洗简介、数据清洗中的理论基础、文件格式及其转换、Excel数据清洗、Kettle数据清洗、Kettle与数据仓库、Python数据清洗、数据清洗综合实训。
本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用数据清洗相关技术,并对重要的核心知识点加大练习比例,以达到熟练应用的目的。
本书适用于高校人工智能、大数据技术相关专业的学生,也可供大数据技术爱好者自学使用。
内容实用——理论与实践结合,重点突出应用
体系完善——构建完整的大数据专业解决方案
产教融合——高校企业共参与,对标行业标准
资源丰富——微课、课件、教案、源码、答案
前 言
近年来,随着数字经济的快速发展,数据成为继土地、劳动力、资本、技术之后的第五大生产要素,在国家治理、社会发展和人民生活中的作用日益突出。而大数据是现代社会高科技发展的产物,是第四次工业革命最主要的内容之一,也是数字经济发展重要的推动力量。
当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显。2015年,国家印发《关于促进大数据发展的行动纲要》,第一次将大数据上升到国家战略高度,提出了我国大数据的顶层设计。此后,随着大数据底层设施逐渐成熟,大数据分析开始结合具体行业,向下游垂直行业应用延伸。
大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。例如政府、银行和保险公司等内部存在海量的非结构化、不规则的数据,而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。
本书以理论与实践操作相结合的方式深入讲解了数据清洗的基本知识和实现的基本技术,在内容设计上既有上课时老师讲述的部分(包括详细的理论与典型的案例),又有大量的实训环节,双管齐下,极大地激发了学生的学习积极性和主动创造性,让学生在课堂上跟上老师的思维,从而学到更多的知识和技能。
本书特色如下:
(1)采用“理实一体化”教学方式:课堂上既有老师讲述的内容又有学生独立思考、上机操作的内容。
(2)丰富的教学案例:包含教学课件、习题答案等多种教学资源。
(3)紧跟时代潮流,注重技术变化:书中包含最新的大数据分析知识及一些开源库的使用。建议读者在阅读本书时使用3.7以上的Python程序版本,且需要安装MySQL和Kettle等软件。
(4)编写本书的老师都具有多年教学经验,做到重难点突出,能够激发学生的学习热情。
(5)配有微课视频:对本书中的重难点进行细致讲解,方便学生课后学习。
本书可作为大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的教材,也可作为大数据爱好者的参考书。
本书建议学时为50学时,具体分布见下表。
章节 建议学时
数据清洗简介 4
数据清洗中的理论基础 6
文件格式及其转换 6
Excel数据清洗 4
Kettle数据清洗 8
Kettle与数据仓库 6
Python数据清洗 12
数据清洗综合实训 4
本书由黄源、刘智杨、孙大松任主编,陈勇、王曙光、刘广敏任副主编。其中,黄源编写第1章和第2章并负责统稿工作,刘智杨编写第3章,孙大松编写第4 章,陈勇编写第5章和第6章,王曙光编写第7章,刘广敏编写第8章。
在本书编写过程中,编者得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持,同时参阅了大量相关资料,在此一并表示感谢。
由于编者水平有限,书中难免存在疏漏甚至错误之处,恳请读者批评指正,编者电子邮箱:2103069667@qq.com。
编 者
2021年10月
第1章 数据清洗简介 1
1.1 数据清洗概述 2
1.1.1 什么是数据清洗 2
1.1.2 数据清洗的原理 2
1.1.3 数据清洗的过程 3
1.2 数据质量管理 5
1.2.1 数据质量管理的含义 5
1.2.2 数据质量的评估 6
1.2.3 数据质量管理应用 7
1.3 数据清洗模型研究 8
1.3.1 数据清洗模型描述 8
1.3.2 数据清洗模型应用 9
1.4 数据清洗常用软件与工具 9
1.4.1 数据清洗常用软件 9
1.4.2 数据清洗常用工具 11
1.5 实训 11
练习1 13
第2章 数据清洗中的理论基础 14
2.1 微积分 15
2.1.1 微积分概述 15
2.1.2 微积分的作用 15
2.2 线性代数 15
2.2.1 线性代数概述 16
2.2.2 线性代数的定义 16
2.3 概率论与数理统计 21
2.3.1 概率论与数理统计概述 21
2.3.2 概率论与数理统计基本概念 21
2.4 最优化理论 26
2.4.1 最优化理论定义 26
2.4.2 凸函数 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的实现 27
2.6 数据清洗常见算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚类算法 31
2.7 实训 33
练习2 34
第3章 文件格式及其转换 35
3.1 文件格式概述 36
3.1.1 文件格式简介 36
3.1.2 Windows中常见的文件格式介绍 36
3.2 数据类型与字符编码 37
3.2.1 数据类型 37
3.2.2 字符编码 37
3.3 跨平台数据传输格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的运行与转换 40
3.4.1 文本文件的转换 41
3.4.2 XML文件的转换 43
3.4.3 JSON文件的转换 46
3.4.4 CSV文件的转换 48
3.5 实训 50
练习3 56
第4章 Excel数据清洗 57
4.1 认识Excel 58
4.1.1 Excel介绍 58
4.1.2 Excel数据清洗的特点 58
4.2 Excel数据清洗基本操作 58
4.2.1 Excel数据工具的认识 58
4.2.2 Excel数据工具的应用 59
4.3 使用Excel中的函数进行数据清洗 65
4.3.1 Excel中的函数介绍 65
4.3.2 Excel函数的具体应用 66
4.4 实训 70
练习4 71
第5章 Kettle数据清洗 72
5.1 Kettle数据清洗概述 73
5.1.1 Kettle数据清洗简介 73
5.1.2 Kettle数据清洗的认识 73
5.2 Kettle数据清洗基础 74
5.2.1 Kettle数据清洗基本操作 75
5.2.2 Kettle数据清洗的实现 75
5.3 实训 94
练习5 105
第6章 Kettle与数据仓库 106
6.1 数据仓库概述 107
6.1.1 什么是数据仓库 107
6.1.2 数据仓库的特点 107
6.2 Kettle中的数据仓库相关技术 107
6.2.1 Kettle连接数据库 107
6.2.2 Kettle成功连接数据库的其他操作 109
6.3 Kettle在数据仓库中的应用 111
6.3.1 Kettle读取数据库 111
6.3.2 Kettle迁移数据库 115
6.4 实训 117
练习6 119
第7章 Python数据清洗 120
7.1 Python数据清洗概述 121
7.1.1 Python数据清洗简介 121
7.1.2 Python扩展库的安装与导入 121
7.2 Python数据清洗基础 122
7.2.1 NumPy库的使用 122
7.2.2 Pandas库的使用 128
7.3 机器学习中的数据清洗 149
7.3.1 Seaborn库 149
7.3.2 对机器学习中的数据集进行分析清洗 152
7.4 Python中的时间序列 154
7.4.1 时间序列基础datetime 154
7.4.2 Pandas中的日期与时间工具 156
7.5 实训 157
练习7 165
第8章 数据清洗综合实训 166
8.1 Kettle输入记录排序 167
8.2 Kettle数据流优先级排序 171
8.3 Kettle生成记录排序 175
8.4 使用Python清洗数据 178
8.5 Python读取CSV文档 180
参考文献 186
- 嵌入式人工智能技术应用(数字教材) [主编 胡娜 杨国勇 晏廷荣]
- Java Web项目化设计实践教程 [邱云 曾陈萍]
- 人工智能开发框架应用 [主编 王明超 芦娅云]
- 民航客舱服务实用英语教程 [主编 田静 徐亚玲]
- Python数据分析 [主编 冯志辉 赵磊 李放]
- 大学信息技术 [曾翰颖 编著]
- 多维视域下的高校篮球教学创新研究 [张利超 李宁 著]
- 创新创业训练实践教程 [主编 王日华 陈武 黄喆诚]
- 实用运筹学 [主编 邢育红 于晋臣]
- 电子技术(第二版) [主编 覃爱娜 李飞]
- 劳动争议处理实务 [主编 王秀卿 罗静]
- 工程数学 [主编 郭立娟 王海]
- 语音识别理论与实践 [主编 莫宏伟]
- 武术基础教程 [主编 李代勇 谢志民]
- 计算机网络实训教程 [主编 张浩军 赵玉娟]
- 画法几何与机械制图习题集(多学时) [主编 赵军]
- 电工电子技术基础 [主编 刘 军 杨国龙 刘天成]
- MySQL数据库项目式教程 [陈亚峰]
- 机械设计基础(第二版) [主编 田亚平 李爱姣]
- 画法几何与机械制图 [主编 赵军]
- C语言程序设计习题与实验指导(第二版) [主编 甄增荣 张宾]
- C语言程序设计(第二版) [主编 甄增荣 田云霞]
- Unity3D虚拟现实应用开发实践 [主 编 刘龙]
- 智能化技术基础(第三版) [邓文达 李礼]
- 面向对象程序设计 [主编 张勇 张平华 赵小龙]
- 网络营销 [主编 夏薇薇 刘婷 尚洁]
- 电视节目策划与制作(微课版) [主 编 黄滴滴]
- 数据库技术与应用实践教程(SQL Server 2019) [主 编 严晖 周肆清]
- 大学应用数学 [主编 郭立娟]
- 工业机器人拆装与调试 [主编 胡月霞 向艳芳 朱奇]