数据分析算法及应用实践.基于Python 3.x(富媒体)
定 价:59 元
丛书名:高等院校特色规划教材
当前图书已被 2 所学校荐购过!
查看明细
- 作者: 刘建军,董少群,崔学慧 著
- 出版时间:2020/9/1
- ISBN:9787518341511
- 出 版 社:石油工业出版社
- 中图法分类:TP274
- 页码:372
- 纸张:胶版纸
- 版次:1
- 开本:16开
《数据分析算法及应用实践.基于Python 3.x(富媒体)》基于Python 3.x平台,介绍了数据分析方法和应用实践。内容涉及数据分析中的有监督和无监督方法,包括关联规则、聚类和分类三类基本方法。重点介绍数据分析方法中的算法思想及算法详细实现过程,并结合简单实例进行说明,以达到深入浅出、通俗易懂的目标。对于一些重要定理和结论,适当增加了数学证明或公式推导等内容,以加强学习者对算法理论的深入理解。书末附有数据分析实验与应用实践,给出了基于Python的项目解决方案和过程。
《数据分析算法及应用实践.基于Python 3.x(富媒体)》的适用对象主要是高等院校的统计专业、大数据专业等高年级本科生和理工类学科的硕士研究生,也适用于有关领域中需要数据分析处理的广大工作者。
数据分析方法与Python软件相结合是本书的特点,随着大数据与人工智能的快速发展,优秀的数据处理软件Python被广大科技工作者公认为数据处理的开源软件之一。为使数据分析算法与Python更好地结合,以Python 3.x为平台编写了本教材,这也是数据处理方法教材发展进步的必然结果。
本书主要介绍了数据分析中的有监督和无监督方法,包括关联规则、聚类和分类三类基本方法。对关联规则、聚类和分类各部分内容的编排上,注重方法发展的递进性。对书中所有的算法都给出了Python参考程序,并在Anaconda 3中的Spyder下测试通过,同时每章末都配有一定量的习题,以方便自学之用。附录数据分析实验与应用实践部分包含8个项目,并给出了基于Python的项目解决方案和过程。
建议用64学时学完本书所有内容,同时要求学生课下自由上机实践16学时;本书的关联规则方法、聚类方法、分类方法和高级数据分析方法基本相互独立,因此教师也可以根据学时要求,适当选择内容进行教学。
本书由中国石油大学(北京)刘建军、董少群、崔学慧编著。编写分工如下:刘建军编写书中绪论、第1~14章,董少群编写第16章和附录中的前4个实验项目及各章中的Python算法实现程序,崔学慧编写第15章和附录中的后4个实验。刘建军进行统稿。
本书编写过程中参考了国内已出版的相关书籍和算法的原始论文及大量在线资料,对这些作者致以诚挚的谢意。中国石油大学(北京)许香敏老师对部分章节作了认真审阅,翟瑞、李文亮、王炳哲、黄丽媛、林秋婷、尹彤、孙萌萌和董靖等研究生帮助整理和校读了部分书稿,对他们的热忱帮助表示感谢。
由于编著者水平所限,尽管做了很大努力,书中仍可能存在一些缺点和错误,望广大读者给予批评指正。
绪论
0.1 大数据背景下的数据分析
0.2 大数据分析与传统数据分析的区别
0.3 数据分析的基本过程及数据的预处理
0.4 数据分析方法分类
0.5 本书主要内容
第1篇 关联规则方法
第1章 关联分析算法
1.1 Apriori算法
1.2 AprioriTID算法
习题
第2章 FP-Growth、ECLAT和RElim算法
2.1 FP-Growth算法
2.2 ECLAT算法
2.3 RElim算法
习题
第2篇 聚类方法
第3章 聚类问题基础知识
3.1 聚类分析概述
3.2 数据变换处理方法
3.3 聚类算法中的距离计算
3.4 聚类算法评价
习题
第4章 基于划分的聚类方法
4.1 K-Means聚类算法
4.2 K-Means的改进算法
4.3 AP聚类算法
习题
第5章 基于层次的聚类方法
5.1 基于层次的聚类方法思想
5.2 BIRCH算法
5.3 CURE算法
5.4 ROCK算法
习题
第6章 基于密度的聚类方法
6.1 DBSCAN聚类方法
6.2 OPTICS聚类方法
6.3 均值迁移聚类方法
6.4 密度峰值聚类方法
习题
第7章 基于网格的聚类方法
7.1 STING算法
7.2 WaveCluster算法
7.3 CLIQUE算法
习题
第8章 基于图的聚类方法
8.1 图的基本概念
8.2 Chameleon算法
8.3 谱聚类算法
习题
第9章 基于模型的聚类方法
9.1 EM算法
9.2 混合高斯模型(GMM)算法
习题
第3篇 分类方法
第10章 分类方法概述
10.1 分类概述
10.2 分类模型的评估
第11章 k-近邻算法与k-d树
11.1 k-近邻算法
11.2 k-d树
习题
第12章 决策树与随机森林
12.1 决策树
12.2 随机森林
12.3 决策树与随机森林分类算法的Python实现
习题
第13章 自适应提升和梯度提升算法
13.1 Boosting算法
13.2 自适应提升算法
13.3 梯度提升决策树算法
13.4 XGBoost算法
习题
第14章 朴素贝叶斯分类算法
14.1 贝叶斯基础知识
14.2 朴素贝叶斯算法原理
14.3 朴素贝叶斯分类算法的参数估计
14.4 朴素贝叶斯算法的Python实现
习题
第4篇 高级数据分析方法
第15章 基于神经网络的数据处理方法
15.1 人工神经网络简介
15.2 感知器分类算法
15.3 BP神经网络实现分类
15.4 SOM聚类法
习题
第16章 支持向量机分类算法
16.1 线性支持向量机
16.2 软间隔线性支持向量机
16.3 非线性支持向量机
16.4 序列最小优化算法
16.5 SVM实现多分类
16.6 SVM的特点及SVM分类的Python实现
习题
参考文献
附录 数据分析实验与应用实践
附录A 数据文件操作基础
A.1 导入导出txt文件
A.2 导入导出csv文件
A.3 应用pandas包读写数据文件
附录B 零售市场数据关联分析
B.1 项目背景
B.2 导入数据
B.3 数据描述性分析
B.4 数据预处理
B.5 寻找关联规则
B.6 小结
附录C 用K-Means聚类进行客户细分
C.1 项目背景
C.2 导入数据
C.3 数据分析
C.4 小结
附录D 应用GMM识别语音人物
D.1 项目任务
D.2 数据准备
D.3 GMM建模
D.4 结果与结论
附录E 基于K-近邻算法的手写数字识别
E.1 项目背景
E.2 手写数字识别模型原理
E.3 数据及数据前期处理
E.4 构建KNN算法并测试算法
E.5 小结
附录F 应用朴素贝叶斯分类器过滤垃圾邮件
F.1 项目背景
F.2 收集并准备数据
F.3 构造分类函数
F.4 训练算法
F.5 测试算法
F.6 小结
附录G 基于随机森林和GBDT的心血管疾病诊断
G.1 项目背景
G.2 数据说明与预处理
G.3 探索性分析
G.4 分类建模
G.5 小结
附录H 基于SVM的图像分类
H.1 项目任务
H.2 SVM图像分类的基本流程
H.3 实际数据处理
H.4 结果与小结