内容简介
《统计学:从数据到结论》一书由浅入深地讲授统计学基础知识,并提供了统计方法的两种软件,既R和Python的使用方法,让读者可以边学习边着手用统计软件处理数据。全书涉及统计学基本概念、数据的收集、数据的描述、概率和分布、变量之间的关系(回归和分类、多元分析)、时间序列分析、生存分析简介和基本软件使用方法的介绍等。本书前面的章节是对统计基本概念的介绍,后半部分则介绍了更有针对性的一些统计模型、方法和应用。
作者介绍
吴喜之,本科就读于北京大学数学力学系,美国北卡罗来那大学(Chapel Hill)统计系博士。在多所大学任教,曾经在国际国内专业杂志上发表过五六十篇文章,并且为十本专著和教科书的作者。涉及的统计研究方向有:序贯分析及最优停时,回归诊断,有错抽样检查,模型选择,纵向数据分析,稳健统计,偏最小二乘法,贝叶斯统计,经济计量模型的非参数回归,列联表和分类数据等。
目录
前 言 第 1 章 一些基本概念 1.1 统计: 作为数据科学 1 1.2 现实中的随机性和规律性, 概率和机会 2 1.3 变量和数据 3 1.4 变量之间的关系 4 1.4.1 定性变量间的关系 6 1.4.2 定性和定量变量间的混合关系 7 1.5 统计、计算机与统计软件 9 1.6 本章的 Python 代码 10 1.7 习题 11 第 2 章 数据的收集 2.1 数据是怎样得到的? 12 2.2 个体、总体和样本 13 2.3 参考资料: 抽样调查和一些常用的方法 14 2.3.1 概述 14 2.3.2 概率抽样例子 15 2.3.3 非概率抽样例子 16 2.3.4 收集数据时的误差 16 2.3.5 问卷调查的问题 16 2.4 习题 17 第 3 章 数据的描述 3.1 如何用图来表示数据? 18 3.1.1 定量变量的图表示: 直方图、盒形图、茎叶图和散点图 18 3.1.2 定性变量的图表示: 饼图和条形图 22 3.1.3 其他图描述法 23 3.2 如何用少量数字来概括数据? 25 3.2.1 数据的“位置” 25 3.2.2 数据的“尺度” 27 3.2.3 数据的标准得分 28 3.3 本章的 Python 代码 30 3.3.1 直方图 30 3.3.2 盒形图 31 3.3.3 茎叶图 31 3.3.4 散点图 32 3.3.5 饼图 32 3.3.6 条形图 33 3.3.7 数据的标准得分 34 3.4 习题 34 第 4 章 机会的度量: 概率和分布 4.1 得到概率的几种途径 35 4.2 概率的运算 36 4.3 变量的分布 38 4.3.1 离散随机变量 39 4.3.2 离散分布例子: 二项分布 39 4.3.3 离散分布例子: 多项分布 41 4.3.4 离散分布例子: Poisson 分布 41 4.3.5 离散分布例子: 超几何分布 42 4.3.6 连续随机变量 43 4.3.7 累积分布函数 44 4.3.8 连续分布例子: 正态分布 45 4.3.9 通过正态分布说明连续分布的概率 46 4.3.10 连续分布例子: 均匀分布 47 4.3.11 实际数据中变量的经验分布 48 4.4 抽样分布 51 4.4.1 什么是抽样分布 51 4.4.2 中心极限定理 52 4.5 本章的 Python 代码 53 4.5.1 二项分布 53 4.5.2 Poisson 分布 54 4.5.3 连续随机变量的分布 55 4.5.4 正态分布 56 4.5.5 均匀分布 57 4.5.6 经验分布 58 4.5.7 抽样分布 60 4.6 习题 61 第 5 章 有监督学习——回归和分类 5.1 问题的提出 62 5.1.1 多变量相互作用的真实世界 62 5.1.2 数据科学的核心是有监督学习的预测 62 5.2 通过数据案例理解有监督学习:分类问题 63 5.2.1 例 5.1 欺诈竞标数据 63 5.2.2 探索性数据分析 63 5.2.3 建立一个决策树分类模型 65 5.2.4 如何选择分类决策树的拆分变量 67 5.2.5 预测精度的交叉验证 68 5.2.6 例 5.1 欺诈竞标数据决策树分类的变量重要性 69 5.3 通过数据案例理解有监督学习:回归问题 70 5.3.1 例 5.2 混凝土强度数据 70 5.3.2 探索性数据分析 70 5.3.3 建立一个决策树回归模型 71 5.3.4 如何选择回归决策树的拆分变量 73 5.3.5 回归中的交叉验证预测精度与残差的区别 73 5.3.6 例 5.2 混凝土强度数据回归预测精度的交叉验证 75 5.3.7 例 5.2 混凝土强度数据决策树回归的变量重要性 75 5.4 若干有监督学习模型 76 5.4.1 更多的例子 76 5.4.2 两类模型的概述及交叉验证 77 5.4.3 bagging 分类和回归 79 5.4.4 adaboost 分类 82 5.4.5 随机森林分类和回归 83 5.4.6 SVM 分类和回归 89 5.4.7 最小二乘线性回归 90 5.4.8 用于二分类的 logistic 回归 93 5.4.9 线性判别分析分类 94 5.5 本章自编 R 函数和一些作图代码 95 5.5.1 平衡分类因变量各水平的分折函数 96 5.5.2 单独模型的分类交叉验证函数(只用于本章的模型) 96 5.5.3 单独模型的回归交叉验证函数(只用于本章的模型) 97 5.5.4 课文中一些图的代码 97 5.6 本章的 Python 代码 100 5.6.1 一些需要的模块 100 5.6.2 通过数据案例理解有监督学习:分类问题 101 5.6.3 通过数据案例理解有监督学习:回归问题 103 5.6.4 模型的概述及交叉验证 104 5.6.5 bagging 分类和回归 106 5.6.6 adaboost 分类 107 5.6.7 随机森林分类和回归 108 5.6.8 SVM 分类和回归 109 5.6.9 最小二乘线性回归 110 5.6.10 logistic 回归二分类 112 5.6.11 线性判别分析做多分类 112 5.6.12 本章要用的一些 Python 自编函数 113 5.7 参考资料 116 5.7.1 线性判别分析的一些数学细节 * 116 5.7.2 支持向量机的一些数学细节 ∗ 117 5.8 习题 118 第 6 章 无监督学习——多元分析 6.1 寻找多个变量的代表: 主成分分析和因子分析 120 6.1.1 主成分分析 121 6.1.2 因子分析 127 6.1.3 因子分析和主成分分析的一些注意事项 129 6.2 把对象分类: 聚类分析 130 6.2.1 如何度量距离远近? 130 6.2.2 事先要确定分多少类: k 均值聚类 131 6.2.3 事先不用确定分多少类: 分层聚类 132 6.2.4 聚类要注意的问题 133 6.3 两组变量之间的相关:典型相关分析 134 6.3.1 两组变量的相关问题 134 6.3.2 典型相关分析 134 6.4 列联表行变量和列变量的关系:对应分析 137 6.5 参考资料: 一些概括及公式 139 6.5.1 主成分分析和因子分析 139 6.5.2 聚类分析 141 6.5.3 典型相关分析 141 6.5.4 对应分析 142 6.6 本章的 Python 代码 144 6.6.1 主成分分析 144 6.6.2 因子分析 147 6.6.3 聚类分析 148 6.6.4 典型相关分析 150 6.6.5 对应分析 152 6.7 习题 153 第 7 章 随时间变化的对象: 时间序列分析 7.1 概述 154 7.2 时间序列的组成部分 155 7.3 指数平滑 156 7.4 Box-Jenkins 方法: ARIMA 模型 157 7.4.1 ARIMA 模型介绍 157 7.4.2 ARMA 模型的识别和估计 159 7.4.3 用 ARIMA 模型拟合 162 7.5 参考资料: 一些概括及公式 166 7.5.1 指数平滑模型 166 7.5.2 ARIMA 模型 167 7.6 本章的 Python 代码 168 7.6.1 时序的组成和指数平滑 168 7.6.2 ARIMA 模型 170 7.7 习题 172 第 8 章 生存分析简介 8.1 对生命数据的简单描述 177 8.2 Cox 比例危险模型 178 8.3 本章的 Python 代码 180 8.3.1 生存函数图 180 8.3.2 生命表 181 8.3.3 Cox 比例危险率模型 182 8.4 习题 183 第 9 章 基本软件: R 和 Python 9.1 R简介——为领悟而运行 184 9.1.1 简介 184 9.1.2 安装和运行小贴士 185 9.1.3 动手 187 9.1.4 实践 187 9.2 Python 简介——为领悟而运行 197 9.2.1 引言 197 9.2.2 安装 198 9.2.3 基本模块的编程 199 9.2.4 Numpy 模块 203 9.2.5 Pandas 模块 208 9.2.6 Matplotlib 模块 209 9.3 习题 211 第 10 章 附录: 统计显著性: 假设检验和区间估计 10.1 引言 212 10.1.1 十字路口的统计学 212 10.1.2 内容选择的困难 213 10.1.3 一个经典的例子 214 10.2 正态总体假定下关于均值的假设检验和区间估计 215 10.2.1 通过例 10.1 理解关于正态均值µ 的显著性检验的逻辑过程 215 10.2.2 对例 10.1 的显著性检验过程的讨论 218 10.2.3 通过例 10.1 理解关于正态均值µ 的置信区间的逻辑过程 219 10.2.4 置信区间和显著性检验的等价性 220 10.2.5 正态总体的显著性检验及置信区间的公式汇总 221 10.3 涉及 Bernoulli 试验成功概率 p的显著性检验及置信区间 223 10.4 非参数检验 224 10.4.1 关于非参数检验的一些常识 224 10.4.2 关于单样本位置的符号检验 225 10.4.3 关于单样本位置的 Wilcoxon 符号秩检验 226 10.4.4 关于随机性的游程检验 227 10.4.5 比 较 两 独 立 总 体 中 位 数 的Wilcoxon (Mann-Whitney) 秩和检验 228 10.5 自助法抽样检验简介 229 10.6 本章的 Python 代码 230 10.6.1 例 10.1 玉米成对高度差均值的t 检验及置信区间 230 10.6.2 例 10.2 关于比例的检验及置信区间 230 10.6.3 例 10.2.3 的符号检验 231 10.6.4 随机游程检验: run1.txt 数据 231 10.6.5 随机游程检验: 例 10.3 化妆品数据 231 10.6.6 比较两独立总体中位数的秩和检验: 例 10.4 GDP 数据 231 10.6.7 例 10.1 自助法抽样检验 232 10.6.8 正态分布的三个导出分布 232 10.7 参考资料 233 10.7.1 正态分布的三个导出分布 233 10.7.2 统计量的一些变换 235 10.8 习题 236 参考文献 239