作者:邓辉 编著
出版社:中国统计出版社
ISBN:978-7-5230-0435-7
出版时间:2024-06-29
装帧:平装
开本:16
定价:49元
订购方式
查看大图作者:邓辉 编著
出版社:中国统计出版社
ISBN:978-7-5230-0435-7
出版时间:2024-06-29
装帧:平装
开本:16
定价:49元
订购方式邓辉,工学博士,毕业于西安电子科技大学控制理论与控制工程专业。西安财经大学统计学院数据科学与大数据技术专业专任教师。曾在IBM中国研发中心担任高级软件工程师一职,作为主要开发者参与多个大数据软件项目的研发工作。主持并参与国家级和省部级项目10余项。在国内外知名期刊发表学术论文7篇,其中SCI检索4篇,中文核心1篇,会议论文2篇。
第1章 实验环境的准备
1.1资源下载
1.1.1 Oracle VM VirtualBox的下载与安装
1.1.2下载 Ubuntu 系统镜像
1.2环境实现
1.2.1创建虚拟机
1.2.2安装Ubuntu系统
1.3远程工具的安装和使用
1.3.1 Xshell
1.3.2 Xftp
1.4备份、恢复与克隆
1.4.1备份
1.4.2恢复
1.4.3克隆
本章小结
综合实验
课后习题
第2章 Hadoop的部署与运维
2.1 Hadoop简介
2.2运行环境配置
2.3 单机模式Hadoop
2.3.1单机模式Hadoop的安装与配置
2.3.2测试单机模式Hadoop
2.4伪分布式模式Hadoop
2.4.1伪分布式模式Hadoop的SSH免密码登录设置
2.4.2配置伪分布式模式Hadoop
2.4.3启动伪分布式模式Hadoop
2.4.4测试伪分布式模式Hadoop
2.5集群模式Hadoop
2.5.1机器的准备
2.5.2集群模式Hadoop的SSH免密码登录设置
2.5.3配置集群模式Hadoop
2.5.4启动集群模式Hadoop
2.5.5测试集群模式Hadoop
本章小结
综合实验
课后习题
第3章 ZooKeeper与高可用模式Hadoop
3.1 ZooKeeper简介
3.1.1 ZooKeeper下载与安装
3.1.2配置ZooKeeper
3.1.3启动ZooKeeper
3.2高可用模式Hadoop
3.2.1机器的准备
3.2.2配置高可用模式Hadoop
3.2.3启动高可用模式Hadoop
3.2.4测试高可用模式Hadoop
本章小结
综合实验
课后习题
第4章 Hive数据仓库与Hbase分布式数据库
4.1 Hive数据仓库
4.1.1 Hive的安装与部署
4.1.2 Hive Shell操作
4.2 HBase分布式数据库
4.2.2 HBase的安装部署
4.2.3 HBase Shell的操作
本章小结
综合实验
课后习题
第5章Spark的部署与应用
5.1 Spark简介
5.2 Spark的安装部署
5.2.1单机模式Spark
5.2.2 Standalone Spark
5.2.3 Spark on Yarn
5.2.4 Spark on Mesos
5.3 Spark Shell操作
本章小结
综合实验
课后习题
第6章HDFS与MapReduce
6.1 HDFS121
6.1.1 HDFS简介
6.1.2 HDFS Shell操作
6.1.3 Python调用HDFS API
6.2 MapReduce
6.2.1 MapReduce简介
6.2.2 Python编写MapReduce程序
本章小结
综合实验
课后习题
第7章 数据分析与Python库
7.1数据分析
7.2 NumPy
7.2.1 NumPy简介
7.2.2 NumPy的数据对象
7.2.3 NumPy的基本操作
7.3 Pandas
7.3.1 Pandas
7.3.2 Pandas的数据对象
7.3.3 Pandas的常用基本操作
本章小结
综合实验
课后习题
第8章 数据可视化与数据清洗
8.1 Matplotlib
8.1.1 Matplotlib简介
8.1.2 Matplotlib数据对象
8.1.3散点图
8.1.4柱状图
8.1.5饼图
8.1.6直方图
8.1.7箱线图
8.1.8热力图
8.2数据清洗
8.2.1缺失值的处理
8.2.2异常值的处理
本章小结
综合实验
课后习题
第9章 数据分析模型
9.1分类
9.2回归
9.3聚类
9.4关联
9.5时序
本章小结
综合实验
课后习题
参考文献