面向数据科学家的实用统计学.pdf [R語言]

面向数据科学家的实用统计学.pdf [R語言]

面向数据科学家的实用统计学.pdf [R語言]

PDF: https://github.com/jash-git/Jash-good-idea-20200304-001

本书的补充材料(即示例代码、练习等)可从 https://github.com/andrewgbruce/statistics-for-data-scientists 下载。

前言 …………………………………………………………………………………………………………………………………….xiii
第1 章 探索性数据分析 ……………………………………………………………………………………………………1
1.1 结构化数据的组成 ………………………………………………………………………………………………………2
1.2 矩形数据 ……………………………………………………………………………………………………………………4
1.2.1 数据框和索引 ………………………………………………………………………………………………….5
1.2.2 非矩形数据结构 ………………………………………………………………………………………………5
1.2.3 拓展阅读 …………………………………………………………………………………………………………6
1.3 位置估计 ……………………………………………………………………………………………………………………6
1.3.1 均值 ……………………………………………………………………………………………………………….7
1.3.2 中位数和稳健估计量 ……………………………………………………………………………………….8
1.3.3 位置估计的例子:人口和谋杀率 ……………………………………………………………………..9
1.3.4 拓展阅读 ……………………………………………………………………………………………………….10
1.4 变异性估计 ……………………………………………………………………………………………………………….10
1.4.1 标准偏差及相关估计值 ………………………………………………………………………………….11
1.4.2 基于百分位数的估计量 ………………………………………………………………………………….13
1.4.3 例子:美国各州人口的变异性估计量 …………………………………………………………….14
1.4.4 拓展阅读 ……………………………………………………………………………………………………….14
1.5 探索数据分布 ……………………………………………………………………………………………………………14
1.5.1 百分位数和箱线图 …………………………………………………………………………………………15
1.5.2 频数表和直方图 …………………………………………………………………………………………….16
1.5.3 密度估计 ……………………………………………………………………………………………………….18
1.5.4 拓展阅读 ……………………………………………………………………………………………………….20
1.6 探索二元数据和分类数据 ………………………………………………………………………………………….20
1.6.1 众数 ………………………………………………………………………………………………………………21
1.6.2 期望值 …………………………………………………………………………………………………………..22
1.6.3 拓展阅读 ……………………………………………………………………………………………………….22
vi | 目录
1.7 相关性 ……………………………………………………………………………………………………………………..22
1.7.1 散点图 …………………………………………………………………………………………………………..25
1.7.2 拓展阅读 ……………………………………………………………………………………………………….26
1.8 探索两个及以上变量 …………………………………………………………………………………………………26
1.8.1 六边形图和等势线(适用于两个数值型变量) ………………………………………………..26
1.8.2 两个分类变量 ………………………………………………………………………………………………..28
1.8.3 分类数据和数值型数据 ………………………………………………………………………………….29
1.8.4 多个变量的可视化 …………………………………………………………………………………………31
1.8.5 拓展阅读 ……………………………………………………………………………………………………….33
1.9 小结 …………………………………………………………………………………………………………………………33
第2 章 数据和抽样分布 ………………………………………………………………………………………………….34
2.1 随机抽样和样本偏差 …………………………………………………………………………………………………35
2.1.1 偏差 ………………………………………………………………………………………………………………36
2.1.2 随机选择 ……………………………………………………………………………………………………….37
2.1.3 数据规模与数据质量:何时规模更重要 …………………………………………………………38
2.1.4 样本均值与总体均值 ……………………………………………………………………………………..38
2.1.5 拓展阅读 ……………………………………………………………………………………………………….39
2.2 选择偏差 ………………………………………………………………………………………………………………….39
2.2.1 趋均值回归 ……………………………………………………………………………………………………40
2.2.2 拓展阅读 ……………………………………………………………………………………………………….41
2.3 统计量的抽样分布 …………………………………………………………………………………………………….42
2.3.1 中心极限定理 ………………………………………………………………………………………………..44
2.3.2 标准误差 ……………………………………………………………………………………………………….44
2.3.3 拓展阅读 ……………………………………………………………………………………………………….45
2.4 自助法 ……………………………………………………………………………………………………………………..45
2.4.1 重抽样与自助法 …………………………………………………………………………………………….47
2.4.2 拓展阅读 ……………………………………………………………………………………………………….48
2.5 置信区间 ………………………………………………………………………………………………………………….48
2.6 正态分布 ………………………………………………………………………………………………………………….50
2.7 长尾分布 ………………………………………………………………………………………………………………….53
2.8 学生t 分布 ……………………………………………………………………………………………………………….55
2.9 二项分布 ………………………………………………………………………………………………………………….57
2.10 泊松分布及其相关分布 ……………………………………………………………………………………………58
2.10.1 泊松分布 …………………………………………………………………………………………………….59
2.10.2 指数分布 …………………………………………………………………………………………………….59
2.10.3 故障率估计 …………………………………………………………………………………………………60
2.10.4 韦伯分布 …………………………………………………………………………………………………….60
2.10.5 拓展阅读 …………………………………………………………………………………………………….61
2.11 小结 ……………………………………………………………………………………………………………………….61
第3 章 统计实验与显著性检验 ………………………………………………………………………………………62
3.1 A/B 测试 ………………………………………………………………………………………………………………….62
图灵社区会员 Kensuke(cpy4ever@gmail.com) 专享 尊重版权
目录 | vii
3.1.1 为什么要有对照组 …………………………………………………………………………………………64
3.1.2 为什么只有处理A 和B,没有C、D…… ………………………………………………………65
3.1.3 拓展阅读 ……………………………………………………………………………………………………….66
3.2 假设检验 ………………………………………………………………………………………………………………….66
3.2.1 零假设 …………………………………………………………………………………………………………..67
3.2.2 备择假设 ……………………………………………………………………………………………………….67
3.2.3 单向假设检验和双向假设检验 ……………………………………………………………………….68
3.2.4 拓展阅读 ……………………………………………………………………………………………………….68
3.3 重抽样 ……………………………………………………………………………………………………………………..68
3.3.1 置换检验 ……………………………………………………………………………………………………….69
3.3.2 例子:Web 黏性 …………………………………………………………………………………………….69
3.3.3 穷尽置换检验和自助置换检验 ……………………………………………………………………….72
3.3.4 置换检验:数据科学的底线 …………………………………………………………………………..72
3.3.5 拓展阅读 ……………………………………………………………………………………………………….72
3.4 统计显著性和p 值 …………………………………………………………………………………………………….72
3.4.1 p 值 ……………………………………………………………………………………………………………….74
3.4.2 α 值 ……………………………………………………………………………………………………………….75
3.4.3 第一类错误和第二类错误 ………………………………………………………………………………76
3.4.4 数据科学与p 值 …………………………………………………………………………………………….76
3.4.5 拓展阅读 ……………………………………………………………………………………………………….77
3.5 t 检验 ……………………………………………………………………………………………………………………….77
3.6 多重检验 ………………………………………………………………………………………………………………….78
3.7 自由度 ……………………………………………………………………………………………………………………..81
3.8 方差分析 ………………………………………………………………………………………………………………….82
3.8.1 F 统计量 ………………………………………………………………………………………………………..84
3.8.2 双向方差分析 ………………………………………………………………………………………………..85
3.8.3 拓展阅读 ……………………………………………………………………………………………………….86
3.9 卡方检验 ………………………………………………………………………………………………………………….86
3.9.1 卡方检验:一种重抽样方法 …………………………………………………………………………..86
3.9.2 卡方检验:统计理论 ……………………………………………………………………………………..88
3.9.3 费舍尔精确检验 …………………………………………………………………………………………….88
3.9.4 与数据科学的关联 …………………………………………………………………………………………90
3.9.5 拓展阅读 ……………………………………………………………………………………………………….91
3.10 多臂老虎机算法 ………………………………………………………………………………………………………91
3.11 检验效能和样本规模 ……………………………………………………………………………………………….93
3.11.1 样本规模 …………………………………………………………………………………………………….95
3.11.2 拓展阅读 …………………………………………………………………………………………………….96
3.12 小结 ……………………………………………………………………………………………………………………….96
第4 章 回归与预测 ………………………………………………………………………………………………………….97
4.1 简单线性回归 ……………………………………………………………………………………………………………97
4.1.1 回归方程 ……………………………………………………………………………………………………….98
4.1.2 拟合值与残差 ………………………………………………………………………………………………100
viii | 目录
4.1.3 最小二乘法 ………………………………………………………………………………………………….101
4.1.4 预测与解释(剖析) ……………………………………………………………………………………..102
4.1.5 拓展阅读 ……………………………………………………………………………………………………..103
4.2 多元线性回归 ………………………………………………………………………………………………………….103
4.2.1 美国金县房屋数据案例 ………………………………………………………………………………..103
4.2.2 评估模型 ……………………………………………………………………………………………………..104
4.2.3 交叉验证 ……………………………………………………………………………………………………..106
4.2.4 模型选择和逐步回归法 ………………………………………………………………………………..107
4.2.5 加权回归 ……………………………………………………………………………………………………..108
4.3 使用回归做预测 ………………………………………………………………………………………………………109
4.3.1 外推法的风险 ………………………………………………………………………………………………109
4.3.2 置信区间和预测区间 ……………………………………………………………………………………110
4.4 回归中的因子变量 …………………………………………………………………………………………………..111
4.4.1 虚拟变量的表示 …………………………………………………………………………………………..112
4.4.2 多层因子变量 ………………………………………………………………………………………………113
4.4.3 有序因子变量 ………………………………………………………………………………………………114
4.5 解释回归方程 ………………………………………………………………………………………………………….115
4.5.1 相关的预测变量 …………………………………………………………………………………………..116
4.5.2 多重共线性 ………………………………………………………………………………………………….117
4.5.3 混淆变量 ……………………………………………………………………………………………………..117
4.5.4 交互作用和主效应 ……………………………………………………………………………………….118
4.6 检验假设:回归诊断 ……………………………………………………………………………………………….119
4.6.1 离群值 …………………………………………………………………………………………………………120
4.6.2 强影响值 ……………………………………………………………………………………………………..121
4.6.3 异方差性、非正态分布和相关误差 ………………………………………………………………123
4.6.4 偏残差图和非线性 ……………………………………………………………………………………….126
4.7 多项式回归和样条回归 ……………………………………………………………………………………………127
4.7.1 多项式回归 ………………………………………………………………………………………………….128
4.7.2 样条回归 ……………………………………………………………………………………………………..129
4.7.3 广义加性模型 ………………………………………………………………………………………………131
4.7.4 拓展阅读 ……………………………………………………………………………………………………..132
4.8 小结 ……………………………………………………………………………………………………………………….133
第5 章 分类 ……………………………………………………………………………………………………………………134
5.1 朴素贝叶斯算法 ………………………………………………………………………………………………………135
5.1.1 准确的贝叶斯分类是不切实际的 ………………………………………………………………….136
5.1.2 朴素解决方案 ………………………………………………………………………………………………136
5.1.3 数值型预测变量 …………………………………………………………………………………………..138
5.1.4 拓展阅读 ……………………………………………………………………………………………………..138
5.2 判别分析 ………………………………………………………………………………………………………………..138
5.2.1 协方差矩阵 ………………………………………………………………………………………………….139
5.2.2 费希尔线性判别分析 ……………………………………………………………………………………139
5.2.3 一个简单的例子 …………………………………………………………………………………………..140
目录 | ix
5.2.4 拓展阅读 ……………………………………………………………………………………………………..142
5.3 逻辑回归 ………………………………………………………………………………………………………………..142
5.3.1 逻辑响应函数和Logit 函数 …………………………………………………………………………..143
5.3.2 逻辑回归和广义线性模型 …………………………………………………………………………….144
5.3.3 广义线性模型 ………………………………………………………………………………………………145
5.3.4 逻辑回归的预测值 ……………………………………………………………………………………….145
5.3.5 解释系数和优势比 ……………………………………………………………………………………….146
5.3.6 线性回归与逻辑回归:相似之处和不同之处 ………………………………………………..147
5.3.7 模型评估 ……………………………………………………………………………………………………..148
5.3.8 拓展阅读 ……………………………………………………………………………………………………..150
5.4 评估分类模型 ………………………………………………………………………………………………………….150
5.4.1 混淆矩阵 ……………………………………………………………………………………………………..151
5.4.2 稀有类问题 ………………………………………………………………………………………………….152
5.4.3 准确率、召回率和特异性 …………………………………………………………………………….153
5.4.4 ROC 曲线 …………………………………………………………………………………………………….153
5.4.5 AUC …………………………………………………………………………………………………………….155
5.4.6 提升 …………………………………………………………………………………………………………….156
5.4.7 拓展阅读 ……………………………………………………………………………………………………..157
5.5 不平衡数据的处理策略 ……………………………………………………………………………………………157
5.5.1 欠采样 …………………………………………………………………………………………………………158
5.5.2 过采样以及上权重和下权重 …………………………………………………………………………158
5.5.3 数据生成 ……………………………………………………………………………………………………..159
5.5.4 基于代价的分类 …………………………………………………………………………………………..160
5.5.5 探索预测值 ………………………………………………………………………………………………….160
5.5.6 拓展阅读 ……………………………………………………………………………………………………..161
5.6 小结 ……………………………………………………………………………………………………………………….161
第6 章 统计机器学习 …………………………………………………………………………………………………….162
6.1 K 最近邻算法 ………………………………………………………………………………………………………….163
6.1.1 预测贷款拖欠的示例 ……………………………………………………………………………………164
6.1.2 距离度量 ……………………………………………………………………………………………………..165
6.1.3 独热编码 ……………………………………………………………………………………………………..166
6.1.4 标准化 …………………………………………………………………………………………………………166
6.1.5 K 值的选取 …………………………………………………………………………………………………..168
6.1.6 KNN 作为特征引擎 ………………………………………………………………………………………169
6.2 树模型 ……………………………………………………………………………………………………………………170
6.2.1 一个简单的例子 …………………………………………………………………………………………..171
6.2.2 递归分区算法 ………………………………………………………………………………………………172
6.2.3 测量同质性或不纯度 ……………………………………………………………………………………174
6.2.4 阻止树模型继续生长 ……………………………………………………………………………………175
6.2.5 预测连续值 ………………………………………………………………………………………………….176
6.2.6 如何使用树模型 …………………………………………………………………………………………..176
6.2.7 拓展阅读 ……………………………………………………………………………………………………..177
x | 目录
6.3 Bagging 和随机森林 ………………………………………………………………………………………………..177
6.3.1 Bagging 方法 ………………………………………………………………………………………………..178
6.3.2 随机森林 ……………………………………………………………………………………………………..178
6.3.3 变量的重要性 ………………………………………………………………………………………………181
6.3.4 超参数 …………………………………………………………………………………………………………183
6.4 Boosting …………………………………………………………………………………………………………………184
6.4.1 Boosting 算法 ……………………………………………………………………………………………….184
6.4.2 XGBoost 软件 ………………………………………………………………………………………………185
6.4.3 正则化:避免过拟合 ……………………………………………………………………………………186
6.4.4 超参数和交叉验证 ……………………………………………………………………………………….189
6.5 小结 ……………………………………………………………………………………………………………………….191
第7 章 无监督学习 ………………………………………………………………………………………………………..192
7.1 主成分分析 ……………………………………………………………………………………………………………..193
7.1.1 一个简单的例子 …………………………………………………………………………………………..194
7.1.2 计算主成分 ………………………………………………………………………………………………….195
7.1.3 解释主成分 ………………………………………………………………………………………………….196
7.1.4 拓展阅读 ……………………………………………………………………………………………………..198
7.2 K-Means 聚类 ………………………………………………………………………………………………………….198
7.2.1 一个简单的例子 …………………………………………………………………………………………..199
7.2.2 K-Means 算法 ……………………………………………………………………………………………….201
7.2.3 解释类 …………………………………………………………………………………………………………201
7.2.4 选择类的个数 ………………………………………………………………………………………………203
7.3 层次聚类 ………………………………………………………………………………………………………………..204
7.3.1 一个简单的例子 …………………………………………………………………………………………..205
7.3.2 树状图 …………………………………………………………………………………………………………205
7.3.3 凝聚算法 ……………………………………………………………………………………………………..206
7.3.4 测量相异性 ………………………………………………………………………………………………….207
7.4 基于模型的聚类 ………………………………………………………………………………………………………208
7.4.1 多元正态分布 ………………………………………………………………………………………………209
7.4.2 混合正态分布 ………………………………………………………………………………………………210
7.4.3 类数的选取 ………………………………………………………………………………………………….212
7.4.4 拓展阅读 ……………………………………………………………………………………………………..213
7.5 变量的缩放和分类变量 ……………………………………………………………………………………………213
7.5.1 变量的缩放 ………………………………………………………………………………………………….214
7.5.2 控制变量 ……………………………………………………………………………………………………..215
7.5.3 分类数据和高氏距离 ……………………………………………………………………………………216
7.5.4 混合数据的聚类问题 ……………………………………………………………………………………218
7.6 小结 ……………………………………………………………………………………………………………………….219
作者简介 ……………………………………………………………………………………………………………………………220
封面说明 ……………………………………………………………………………………………………………………………220

前言 …………………………………………………………………………………………………………………………………….xiii
第1 章 探索性資料分析 ……………………………………………………………………………………………………1
1.1 結構化資料的組成 ………………………………………………………………………………………………………2
1.2 矩形數據 ……………………………………………………………………………………………………………………4
1.2.1 資料框和索引 ………………………………………………………………………………………………….5
1.2.2 非矩形資料結構 ………………………………………………………………………………………………5
1.2.3 拓展閱讀 …………………………………………………………………………………………………………6
1.3 位置估計 ……………………………………………………………………………………………………………………6
1.3.1 均值 ……………………………………………………………………………………………………………….7
1.3.2 中位數和穩健估計量 ……………………………………………………………………………………….8
1.3.3 位置估計的例子:人口和謀殺率 ……………………………………………………………………..9
1.3.4 拓展閱讀 ……………………………………………………………………………………………………….10
1.4 變異性估計 ……………………………………………………………………………………………………………….10
1.4.1 標準差及相關估計值 ………………………………………………………………………………….11
1.4.2 基於百分位數的估計量 ………………………………………………………………………………….13
1.4.3 例子:美國各州人口的變異性估計量 …………………………………………………………….14
1.4.4 拓展閱讀 ……………………………………………………………………………………………………….14
1.5 探索資料分佈 ……………………………………………………………………………………………………………14
1.5.1 百分位數和箱線圖 …………………………………………………………………………………………15
1.5.2 頻數表和長條圖 …………………………………………………………………………………………….16
1.5.3 密度估計 ……………………………………………………………………………………………………….18
1.5.4 拓展閱讀 ……………………………………………………………………………………………………….20
1.6 探索二中繼資料和分類資料 ………………………………………………………………………………………….20
1.6.1 眾數 ………………………………………………………………………………………………………………21
1.6.2 期望值 …………………………………………………………………………………………………………..22
1.6.3 拓展閱讀 ……………………………………………………………………………………………………….22
vi | 目錄
1.7 相關性 ……………………………………………………………………………………………………………………..22
1.7.1 散點圖 …………………………………………………………………………………………………………..25
1.7.2 拓展閱讀 ……………………………………………………………………………………………………….26
1.8 探索兩個及以上變數 …………………………………………………………………………………………………26
1.8.1 六邊形圖和等勢線(適用於兩個數值型變數) ………………………………………………..26
1.8.2 兩個分類變數 ………………………………………………………………………………………………..28
1.8.3 分類資料和數值型資料 ………………………………………………………………………………….29
1.8.4 多個變數的視覺化 …………………………………………………………………………………………31
1.8.5 拓展閱讀 ……………………………………………………………………………………………………….33
1.9 小結 …………………………………………………………………………………………………………………………33
第2 章 資料和抽樣分佈 ………………………………………………………………………………………………….34
2.1 隨機抽樣和樣本偏差 …………………………………………………………………………………………………35
2.1.1 偏差 ………………………………………………………………………………………………………………36
2.1.2 隨機選擇 ……………………………………………………………………………………………………….37
2.1.3 資料規模與資料品質:何時規模更重要 …………………………………………………………38
2.1.4 樣本均值與總體均值 ……………………………………………………………………………………..38
2.1.5 拓展閱讀 ……………………………………………………………………………………………………….39
2.2 選擇偏差 ………………………………………………………………………………………………………………….39
2.2.1 趨均值回歸 ……………………………………………………………………………………………………40
2.2.2 拓展閱讀 ……………………………………………………………………………………………………….41
2.3 統計量的抽樣分佈 …………………………………………………………………………………………………….42
2.3.1 中心極限定理 ………………………………………………………………………………………………..44
2.3.2 標準誤差 ……………………………………………………………………………………………………….44
2.3.3 拓展閱讀 ……………………………………………………………………………………………………….45
2.4 自助法 ……………………………………………………………………………………………………………………..45
2.4.1 重抽樣與自助法 …………………………………………………………………………………………….47
2.4.2 拓展閱讀 ……………………………………………………………………………………………………….48
2.5 置信區間 ………………………………………………………………………………………………………………….48
2.6 正態分佈 ………………………………………………………………………………………………………………….50
2.7 長尾分佈 ………………………………………………………………………………………………………………….53
2.8 學生t 分佈 ……………………………………………………………………………………………………………….55
2.9 二項分佈 ………………………………………………………………………………………………………………….57
2.10 泊松分佈及其相關分佈 ……………………………………………………………………………………………58
2.10.1 泊松分佈 …………………………………………………………………………………………………….59
2.10.2 指數分佈 …………………………………………………………………………………………………….59
2.10.3 故障率估計 …………………………………………………………………………………………………60
2.10.4 韋伯分佈 …………………………………………………………………………………………………….60
2.10.5 拓展閱讀 …………………………………………………………………………………………………….61
2.11 小結 ……………………………………………………………………………………………………………………….61
第3 章 統計實驗與顯著性檢驗 ………………………………………………………………………………………62
3.1 A/B 測試 ………………………………………………………………………………………………………………….62
圖靈社區會員 Kensuke(cpy4ever@gmail.com) 專享 尊重版權
目錄 | vii
3.1.1 為什麼要有對照組 …………………………………………………………………………………………64
3.1.2 為什麼只有處理A 和B,沒有C、D…… ………………………………………………………65
3.1.3 拓展閱讀 ……………………………………………………………………………………………………….66
3.2 假設檢驗 ………………………………………………………………………………………………………………….66
3.2.1 零假設 …………………………………………………………………………………………………………..67
3.2.2 備擇假設 ……………………………………………………………………………………………………….67
3.2.3 單向假設核對總和雙向假設檢驗 ……………………………………………………………………….68
3.2.4 拓展閱讀 ……………………………………………………………………………………………………….68
3.3 重抽樣 ……………………………………………………………………………………………………………………..68
3.3.1 置換檢驗 ……………………………………………………………………………………………………….69
3.3.2 例子:Web 黏性 …………………………………………………………………………………………….69
3.3.3 窮盡置換核對總和自助置換檢驗 ……………………………………………………………………….72
3.3.4 置換檢驗:資料科學的底線 …………………………………………………………………………..72
3.3.5 拓展閱讀 ……………………………………………………………………………………………………….72
3.4 統計顯著性和p 值 …………………………………………………………………………………………………….72
3.4.1 p 值 ……………………………………………………………………………………………………………….74
3.4.2 α 值 ……………………………………………………………………………………………………………….75
3.4.3 第一類錯誤和第二類錯誤 ………………………………………………………………………………76
3.4.4 資料科學與p 值 …………………………………………………………………………………………….76
3.4.5 拓展閱讀 ……………………………………………………………………………………………………….77
3.5 t 檢驗 ……………………………………………………………………………………………………………………….77
3.6 多重檢驗 ………………………………………………………………………………………………………………….78
3.7 自由度 ……………………………………………………………………………………………………………………..81
3.8 方差分析 ………………………………………………………………………………………………………………….82
3.8.1 F 統計量 ………………………………………………………………………………………………………..84
3.8.2 雙向方差分析 ………………………………………………………………………………………………..85
3.8.3 拓展閱讀 ……………………………………………………………………………………………………….86
3.9 卡方檢驗 ………………………………………………………………………………………………………………….86
3.9.1 卡方檢驗:一種重抽樣方法 …………………………………………………………………………..86
3.9.2 卡方檢驗:統計理論 ……………………………………………………………………………………..88
3.9.3 費舍爾精確檢驗 …………………………………………………………………………………………….88
3.9.4 與資料科學的關聯 …………………………………………………………………………………………90
3.9.5 拓展閱讀 ……………………………………………………………………………………………………….91
3.10 多臂老虎機演算法 ………………………………………………………………………………………………………91
3.11 檢驗效能和樣本規模 ……………………………………………………………………………………………….93
3.11.1 樣本規模 …………………………………………………………………………………………………….95
3.11.2 拓展閱讀 …………………………………………………………………………………………………….96
3.12 小結 ……………………………………………………………………………………………………………………….96
第4 章 回歸與預測 ………………………………………………………………………………………………………….97
4.1 簡單線性回歸 ……………………………………………………………………………………………………………97
4.1.1 回歸方程 ……………………………………………………………………………………………………….98
4.1.2 擬合值與殘差 ………………………………………………………………………………………………100
viii | 目錄
4.1.3 最小二乘法 ………………………………………………………………………………………………….101
4.1.4 預測與解釋(剖析) ……………………………………………………………………………………..102
4.1.5 拓展閱讀 ……………………………………………………………………………………………………..103
4.2 多元線性回歸 ………………………………………………………………………………………………………….103
4.2.1 美國金縣房屋資料案例 ………………………………………………………………………………..103
4.2.2 評估模型 ……………………………………………………………………………………………………..104
4.2.3 交叉驗證 ……………………………………………………………………………………………………..106
4.2.4 模型選擇和逐步回歸法 ………………………………………………………………………………..107
4.2.5 加權回歸 ……………………………………………………………………………………………………..108
4.3 使用回歸做預測 ………………………………………………………………………………………………………109
4.3.1 外推法的風險 ………………………………………………………………………………………………109
4.3.2 置信區間和預測區間 ……………………………………………………………………………………110
4.4 回歸中的因數變數 …………………………………………………………………………………………………..111
4.4.1 虛擬變數的表示 …………………………………………………………………………………………..112
4.4.2 多層因數變數 ………………………………………………………………………………………………113
4.4.3 有序因數變數 ………………………………………………………………………………………………114
4.5 解釋回歸方程 ………………………………………………………………………………………………………….115
4.5.1 相關的預測變數 …………………………………………………………………………………………..116
4.5.2 多重共線性 ………………………………………………………………………………………………….117
4.5.3 混淆變數 ……………………………………………………………………………………………………..117
4.5.4 交互作用和主效應 ……………………………………………………………………………………….118
4.6 檢驗假設:回歸診斷 ……………………………………………………………………………………………….119
4.6.1 離群值 …………………………………………………………………………………………………………120
4.6.2 強影響值 ……………………………………………………………………………………………………..121
4.6.3 異方差性、非正態分佈和相關誤差 ………………………………………………………………123
4.6.4 偏殘差圖和非線性 ……………………………………………………………………………………….126
4.7 多項式回歸和樣條回歸 ……………………………………………………………………………………………127
4.7.1 多項式回歸 ………………………………………………………………………………………………….128
4.7.2 樣條回歸 ……………………………………………………………………………………………………..129
4.7.3 廣義加性模型 ………………………………………………………………………………………………131
4.7.4 拓展閱讀 ……………………………………………………………………………………………………..132
4.8 小結 ……………………………………………………………………………………………………………………….133
第5 章 分類 ……………………………………………………………………………………………………………………134
5.1 樸素貝葉斯演算法 ………………………………………………………………………………………………………135
5.1.1 準確的貝葉斯分類是不切實際的 ………………………………………………………………….136
5.1.2 樸素解決方案 ………………………………………………………………………………………………136
5.1.3 數值型預測變數 …………………………………………………………………………………………..138
5.1.4 拓展閱讀 ……………………………………………………………………………………………………..138
5.2 判別分析 ………………………………………………………………………………………………………………..138
5.2.1 協方差矩陣 ………………………………………………………………………………………………….139
5.2.2 費希爾線性判別分析 ……………………………………………………………………………………139
5.2.3 一個簡單的例子 …………………………………………………………………………………………..140
目錄 | ix
5.2.4 拓展閱讀 ……………………………………………………………………………………………………..142
5.3 邏輯回歸 ………………………………………………………………………………………………………………..142
5.3.1 邏輯回應函數和Logit 函數 …………………………………………………………………………..143
5.3.2 邏輯回歸和廣義線性模型 …………………………………………………………………………….144
5.3.3 廣義線性模型 ………………………………………………………………………………………………145
5.3.4 邏輯回歸的預測值 ……………………………………………………………………………………….145
5.3.5 解釋係數和優勢比 ……………………………………………………………………………………….146
5.3.6 線性回歸與邏輯回歸:相似之處和不同之處 ………………………………………………..147
5.3.7 模型評估 ……………………………………………………………………………………………………..148
5.3.8 拓展閱讀 ……………………………………………………………………………………………………..150
5.4 評估分類模型 ………………………………………………………………………………………………………….150
5.4.1 混淆矩陣 ……………………………………………………………………………………………………..151
5.4.2 稀有類問題 ………………………………………………………………………………………………….152
5.4.3 準確率、召回率和特異性 …………………………………………………………………………….153
5.4.4 ROC 曲線 …………………………………………………………………………………………………….153
5.4.5 AUC …………………………………………………………………………………………………………….155
5.4.6 提升 …………………………………………………………………………………………………………….156
5.4.7 拓展閱讀 ……………………………………………………………………………………………………..157
5.5 不平衡資料的處理策略 ……………………………………………………………………………………………157
5.5.1 欠採樣 …………………………………………………………………………………………………………158
5.5.2 過採樣以及上權重和下權重 …………………………………………………………………………158
5.5.3 資料生成 ……………………………………………………………………………………………………..159
5.5.4 基於代價的分類 …………………………………………………………………………………………..160
5.5.5 探索預測值 ………………………………………………………………………………………………….160
5.5.6 拓展閱讀 ……………………………………………………………………………………………………..161
5.6 小結 ……………………………………………………………………………………………………………………….161
第6 章 統計機器學習 …………………………………………………………………………………………………….162
6.1 K 最近鄰演算法 ………………………………………………………………………………………………………….163
6.1.1 預測貸款拖欠的示例 ……………………………………………………………………………………164
6.1.2 距離度量 ……………………………………………………………………………………………………..165
6.1.3 獨熱編碼 ……………………………………………………………………………………………………..166
6.1.4 標準化 …………………………………………………………………………………………………………166
6.1.5 K 值的選取 …………………………………………………………………………………………………..168
6.1.6 KNN 作為特徵引擎 ………………………………………………………………………………………169
6.2 樹模型 ……………………………………………………………………………………………………………………170
6.2.1 一個簡單的例子 …………………………………………………………………………………………..171
6.2.2 遞迴分區演算法 ………………………………………………………………………………………………172
6.2.3 測量同質性或不純度 ……………………………………………………………………………………174
6.2.4 阻止樹模型繼續生長 ……………………………………………………………………………………175
6.2.5 預測連續值 ………………………………………………………………………………………………….176
6.2.6 如何使用樹模型 …………………………………………………………………………………………..176
6.2.7 拓展閱讀 ……………………………………………………………………………………………………..177
x | 目錄
6.3 Bagging 和隨機森林 ………………………………………………………………………………………………..177
6.3.1 Bagging 方法 ………………………………………………………………………………………………..178
6.3.2 隨機森林 ……………………………………………………………………………………………………..178
6.3.3 變數的重要性 ………………………………………………………………………………………………181
6.3.4 超參數 …………………………………………………………………………………………………………183
6.4 Boosting …………………………………………………………………………………………………………………184
6.4.1 Boosting 演算法 ……………………………………………………………………………………………….184
6.4.2 XGBoost 軟體 ………………………………………………………………………………………………185
6.4.3 正則化:避免過擬合 ……………………………………………………………………………………186
6.4.4 超參數和交叉驗證 ……………………………………………………………………………………….189
6.5 小結 ……………………………………………………………………………………………………………………….191
第7 章 無監督學習 ………………………………………………………………………………………………………..192
7.1 主成分分析 ……………………………………………………………………………………………………………..193
7.1.1 一個簡單的例子 …………………………………………………………………………………………..194
7.1.2 計算主成分 ………………………………………………………………………………………………….195
7.1.3 解釋主成分 ………………………………………………………………………………………………….196
7.1.4 拓展閱讀 ……………………………………………………………………………………………………..198
7.2 K-Means 聚類 ………………………………………………………………………………………………………….198
7.2.1 一個簡單的例子 …………………………………………………………………………………………..199
7.2.2 K-Means 演算法 ……………………………………………………………………………………………….201
7.2.3 解釋類 …………………………………………………………………………………………………………201
7.2.4 選擇類的個數 ………………………………………………………………………………………………203
7.3 層次聚類 ………………………………………………………………………………………………………………..204
7.3.1 一個簡單的例子 …………………………………………………………………………………………..205
7.3.2 樹狀圖 …………………………………………………………………………………………………………205
7.3.3 凝聚演算法 ……………………………………………………………………………………………………..206
7.3.4 測量相異性 ………………………………………………………………………………………………….207
7.4 基於模型的聚類 ………………………………………………………………………………………………………208
7.4.1 多元正態分佈 ………………………………………………………………………………………………209
7.4.2 混合正態分佈 ………………………………………………………………………………………………210
7.4.3 類數的選取 ………………………………………………………………………………………………….212
7.4.4 拓展閱讀 ……………………………………………………………………………………………………..213
7.5 變數的縮放和分類變數 ……………………………………………………………………………………………213
7.5.1 變數的縮放 ………………………………………………………………………………………………….214
7.5.2 控制變數 ……………………………………………………………………………………………………..215
7.5.3 分類資料和高氏距離 ……………………………………………………………………………………216
7.5.4 混合資料的聚類問題 ……………………………………………………………………………………218
7.6 小結 ……………………………………………………………………………………………………………………….219
作者簡介 ……………………………………………………………………………………………………………………………220
封面說明 ……………………………………………………………………………………………………………………………220

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *