特征工程入门与实践.pdf [Python]
特征工程入门与实践.pdf [Python]
PDF: https://github.com/jash-git/Jash-good-idea-20200304-001
本书页面(http://www.ituring.com.cn/book/2606)下载书中的示例代码 [https://github.com/jash-git/Jash-good-idea-20200304-001]
第1 章 特征工程简介 ………………………………. 1
1.1 激动人心的例子:AI 驱动的聊天 ………… 1
1.2 特征工程的重要性 ……………………………… 2
1.3 特征工程是什么 …………………………………. 5
1.4 机器学习算法和特征工程的评估 …………. 9
1.4.1 特征工程的例子:真的有人
能预测天气吗 ………………………… 10
1.4.2 特征工程的评估步骤 ………………. 10
1.4.3 评估监督学习算法 ………………….. 11
1.4.4 评估无监督学习算法 ………………. 11
1.5 特征理解:我的数据集里有什么 ……….. 12
1.6 特征增强:清洗数据 ………………………… 13
1.7 特征选择:对坏属性说不 ………………….. 14
1.8 特征构建:能生成新特征吗 ………………. 14
1.9 特征转换:数学显神通 ……………………… 15
1.10 特征学习:以AI 促AI ……………………. 16
1.11 小结 ………………………………………………. 17
第2 章 特征理解:我的数据集里
有什么 ………………………………………… 19
2.1 数据结构的有无 ……………………………….. 19
2.2 定量数据和定性数据 ………………………… 20
2.3 数据的4 个等级 ……………………………….. 25
2.3.1 定类等级 ……………………………….. 26
2.3.2 定序等级 ……………………………….. 27
2.3.3 定距等级 ……………………………….. 30
2.3.4 定比等级 ……………………………….. 36
2.4 数据等级总结 …………………………………… 38
2.5 小结 ………………………………………………… 40
第3 章 特征增强:清洗数据 …………………. 41
3.1 识别数据中的缺失值 ………………………… 41
3.1.1 皮马印第安人糖尿病预测
数据集 ………………………………….. 42
3.1.2 探索性数据分析 …………………….. 42
3.2 处理数据集中的缺失值 …………………….. 48
3.2.1 删除有害的行 ………………………… 50
3.2.2 填充缺失值 ……………………………. 54
3.2.3 在机器学习流水线中填充值 ……. 57
3.3 标准化和归一化 ……………………………….. 61
3.3.1 z 分数标准化………………………….. 63
3.3.2 min-max 标准化 ……………………… 67
3.3.3 行归一化 ……………………………….. 68
3.3.4 整合起来 ……………………………….. 69
3.4 小结 ………………………………………………… 70
第4 章 特征构建:我能生成新特征吗 ….. 71
4.1 检查数据集 ……………………………………… 71
4.2 填充分类特征 …………………………………… 72
4.2.1 自定义填充器 ………………………… 74
4.2.2 自定义分类填充器 …………………. 74
4.2.3 自定义定量填充器 …………………. 76
4.3 编码分类变量 …………………………………… 77
4.3.1 定类等级的编码 …………………….. 77
4.3.2 定序等级的编码 …………………….. 79
4.3.3 将连续特征分箱 …………………….. 80
4.3.4 创建流水线 ……………………………. 82
4.4 扩展数值特征 …………………………………… 83
4.4.1 根据胸部加速度计识别动作的
数据集 ………………………………….. 83
4.4.2 多项式特征 ……………………………. 86
2 目 录
4.5 针对文本的特征构建 ………………………… 89
4.5.1 词袋法 …………………………………… 89
4.5.2 CountVectorizer ………………… 90
4.5.3 TF-IDF 向量化器 ……………………. 94
4.5.4 在机器学习流水线中使用
文本 ……………………………………… 95
4.6 小结 ………………………………………………… 97
第5 章 特征选择:对坏属性说不 ………….. 98
5.1 在特征工程中实现更好的性能 …………… 99
5.2 创建基准机器学习流水线 ………………… 103
5.3 特征选择的类型 ……………………………… 106
5.3.1 基于统计的特征选择 …………….. 106
5.3.2 基于模型的特征选择 …………….. 117
5.4 选用正确的特征选择方法 ………………… 125
5.5 小结 ………………………………………………. 125
第6 章 特征转换:数学显神通 ……………. 127
6.1 维度缩减:特征转换、特征选择
与特征构建 …………………………………….. 129
6.2 主成分分析 …………………………………….. 130
6.2.1 PCA 的工作原理 …………………… 131
6.2.2 鸢尾花数据集的PCA——
手动处理 ……………………………… 131
6.2.3 scikit-learn 的PCA ……………….. 137
6.2.4 中心化和缩放对PCA 的影响 …. 140
6.2.5 深入解释主成分 …………………… 144
6.3 线性判别分析 …………………………………. 148
6.3.1 LDA 的工作原理 ………………….. 149
6.3.2 在scikit-learn 中使用LDA …….. 152
6.4 LDA 与PCA:使用鸢尾花数据集 ……. 157
6.5 小结 ………………………………………………. 160
第7 章 特征学习:以AI 促AI ……………… 161
7.1 数据的参数假设 ……………………………… 161
7.1.1 非参数谬误 ………………………….. 163
7.1.2 本章的算法 ………………………….. 163
7.2 受限玻尔兹曼机 ……………………………… 163
7.2.1 不一定降维 ………………………….. 164
7.2.2 受限玻尔兹曼机的图 …………….. 164
7.2.3 玻尔兹曼机的限制 ……………….. 166
7.2.4 数据重建 ……………………………… 166
7.2.5 MNIST 数据集 ……………………… 167
7.3 伯努利受限玻尔兹曼机 …………………… 169
7.3.1 从MNIST 中提取PCA 主
成分 ……………………………………. 170
7.3.2 从MNIST 中提取RBM 特征 …. 173
7.4 在机器学习流水线中应用RBM ……….. 177
7.4.1 对原始像素值应用线性模型 ….. 178
7.4.2 对提取的PCA 主成分应用
线性模型……………………………… 178
7.4.3 对提取的RBM特征应用
线性模型……………………………… 179
7.5 学习文本特征:词向量 …………………… 180
7.5.1 词嵌入 ………………………………… 180
7.5.2 两种词嵌入方法:Word2vec
和GloVe ……………………………… 182
7.5.3 Word2vec:另一个浅层神经
网络 ……………………………………. 182
7.5.4 创建Word2vec 词嵌入的
gensim 包 …………………………… 183
7.5.5 词嵌入的应用:信息检索 ……… 186
7.6 小结 ………………………………………………. 190
第8 章 案例分析 ………………………………….. 191
8.1 案例1:面部识别 …………………………… 191
8.1.1 面部识别的应用 …………………… 191
8.1.2 数据 ……………………………………. 192
8.1.3 数据探索 ……………………………… 193
8.1.4 应用面部识别 ………………………. 195
8.2 案例2:预测酒店评论数据的主题 …… 200
8.2.1 文本聚类的应用 …………………… 200
8.2.2 酒店评论数据 ………………………. 200
8.2.3 数据探索 ……………………………… 201
8.2.4 聚类模型 ……………………………… 203
8.2.5 SVD 与PCA 主成分 ……………… 204
8.2.6 潜在语义分析 ………………………. 206
8.3 小结 ………………………………………………. 210
—-
第1 章 特徵工程簡介 ………………………………. 1
1.1 激動人心的例子:AI 驅動的聊天 ………… 1
1.2 特徵工程的重要性 ……………………………… 2
1.3 特徵工程是什麼 …………………………………. 5
1.4 機器學習演算法和特徵工程的評估 …………. 9
1.4.1 特徵工程的例子:真的有人
能預測天氣嗎 ………………………… 10
1.4.2 特徵工程的評估步驟 ………………. 10
1.4.3 評估監督學習演算法 ………………….. 11
1.4.4 評估無監督學習演算法 ………………. 11
1.5 特徵理解:我的資料集裡有什麼 ……….. 12
1.6 特徵增強:清洗數據 ………………………… 13
1.7 特徵選擇:對壞屬性說不 ………………….. 14
1.8 特徵構建:能生成新特徵嗎 ………………. 14
1.9 特徵轉換:數學顯神通 ……………………… 15
1.10 特徵學習:以AI 促AI ……………………. 16
1.11 小結 ………………………………………………. 17
第2 章 特徵理解:我的資料集裡
有什麼 ………………………………………… 19
2.1 資料結構的有無 ……………………………….. 19
2.2 定量資料和定性資料 ………………………… 20
2.3 資料的4 個等級 ……………………………….. 25
2.3.1 定類等級 ……………………………….. 26
2.3.2 定序等級 ……………………………….. 27
2.3.3 定距等級 ……………………………….. 30
2.3.4 定比等級 ……………………………….. 36
2.4 資料等級總結 …………………………………… 38
2.5 小結 ………………………………………………… 40
第3 章 特徵增強:清洗數據 …………………. 41
3.1 識別資料中的缺失值 ………………………… 41
3.1.1 皮馬印第安人糖尿病預測
資料集 ………………………………….. 42
3.1.2 探索性資料分析 …………………….. 42
3.2 處理資料集中的缺失值 …………………….. 48
3.2.1 刪除有害的行 ………………………… 50
3.2.2 填充缺失值 ……………………………. 54
3.2.3 在機器學習流水線中填充值 ……. 57
3.3 標準化和歸一化 ……………………………….. 61
3.3.1 z 分數標準化………………………….. 63
3.3.2 min-max 標準化 ……………………… 67
3.3.3 行歸一化 ……………………………….. 68
3.3.4 整合起來 ……………………………….. 69
3.4 小結 ………………………………………………… 70
第4 章 特徵構建:我能生成新特徵嗎 ….. 71
4.1 檢查資料集 ……………………………………… 71
4.2 填充分類特徵 …………………………………… 72
4.2.1 自訂填充器 ………………………… 74
4.2.2 自訂分類填充器 …………………. 74
4.2.3 自訂定量填充器 …………………. 76
4.3 編碼分類變數 …………………………………… 77
4.3.1 定類等級的編碼 …………………….. 77
4.3.2 定序等級的編碼 …………………….. 79
4.3.3 將連續特徵分箱 …………………….. 80
4.3.4 創建流水線 ……………………………. 82
4.4 擴展數值特徵 …………………………………… 83
4.4.1 根據胸部加速度計識別動作的
資料集 ………………………………….. 83
4.4.2 多項式特徵 ……………………………. 86
2 目 錄
4.5 針對文本的特徵構建 ………………………… 89
4.5.1 詞袋法 …………………………………… 89
4.5.2 CountVectorizer ………………… 90
4.5.3 TF-IDF 向量化器 ……………………. 94
4.5.4 在機器學習流水線中使用
文本 ……………………………………… 95
4.6 小結 ………………………………………………… 97
第5 章 特徵選擇:對壞屬性說不 ………….. 98
5.1 在特徵工程中實現更好的性能 …………… 99
5.2 創建基準機器學習流水線 ………………… 103
5.3 特徵選擇的類型 ……………………………… 106
5.3.1 基於統計的特徵選擇 …………….. 106
5.3.2 基於模型的特徵選擇 …………….. 117
5.4 選用正確的特徵選擇方法 ………………… 125
5.5 小結 ………………………………………………. 125
第6 章 特徵轉換:數學顯神通 ……………. 127
6.1 維度縮減:特徵轉換、特徵選擇
與特徵構建 …………………………………….. 129
6.2 主成分分析 …………………………………….. 130
6.2.1 PCA 的工作原理 …………………… 131
6.2.2 鳶尾花資料集的PCA——
手動處理 ……………………………… 131
6.2.3 scikit-learn 的PCA ……………….. 137
6.2.4 中心化和縮放對PCA 的影響 …. 140
6.2.5 深入解釋主成分 …………………… 144
6.3 線性判別分析 …………………………………. 148
6.3.1 LDA 的工作原理 ………………….. 149
6.3.2 在scikit-learn 中使用LDA …….. 152
6.4 LDA 與PCA:使用鳶尾花資料集 ……. 157
6.5 小結 ………………………………………………. 160
第7 章 特徵學習:以AI 促AI ……………… 161
7.1 資料的參數假設 ……………………………… 161
7.1.1 非參數謬誤 ………………………….. 163
7.1.2 本章的演算法 ………………………….. 163
7.2 受限玻爾茲曼機 ……………………………… 163
7.2.1 不一定降維 ………………………….. 164
7.2.2 受限玻爾茲曼機的圖 …………….. 164
7.2.3 玻爾茲曼機的限制 ……………….. 166
7.2.4 數據重建 ……………………………… 166
7.2.5 MNIST 資料集 ……………………… 167
7.3 伯努利受限玻爾茲曼機 …………………… 169
7.3.1 從MNIST 中提取PCA 主
成分 ……………………………………. 170
7.3.2 從MNIST 中提取RBM 特徵 …. 173
7.4 在機器學習流水線中應用RBM ……….. 177
7.4.1 對原始圖元值應用線性模型 ….. 178
7.4.2 對提取的PCA 主成分應用
線性模型……………………………… 178
7.4.3 對提取的RBM特徵應用
線性模型……………………………… 179
7.5 學習文本特徵:詞向量 …………………… 180
7.5.1 詞嵌入 ………………………………… 180
7.5.2 兩種詞嵌入方法:Word2vec
和GloVe ……………………………… 182
7.5.3 Word2vec:另一個淺層神經
網路 ……………………………………. 182
7.5.4 創建Word2vec 詞嵌入的
gensim 包 …………………………… 183
7.5.5 詞嵌入的應用:資訊檢索 ……… 186
7.6 小結 ………………………………………………. 190
第8 章 案例分析 ………………………………….. 191
8.1 案例1:面部識別 …………………………… 191
8.1.1 面部識別的應用 …………………… 191
8.1.2 數據 ……………………………………. 192
8.1.3 資料探索 ……………………………… 193
8.1.4 應用面部識別 ………………………. 195
8.2 案例2:預測酒店評論資料的主題 …… 200
8.2.1 文本聚類的應用 …………………… 200
8.2.2 酒店評論數據 ………………………. 200
8.2.3 資料探索 ……………………………… 201
8.2.4 聚類模型 ……………………………… 203
8.2.5 SVD 與PCA 主成分 ……………… 204
8.2.6 潛在語義分析 ………………………. 206
8.3 小結 ………………………………………………. 210
2 thoughts on “特征工程入门与实践.pdf [Python]”
感谢大佬分享~
Python数据科学与机器学习:从入门到实践(code)
特征工程入门与实践(code)
Hadoop数据分析.pdf
Hadoop深度学习.pdf
Keras深度学习实战.pdf
NumPy攻略:Python科学计算与数据分析.pdf
OpenCV计算机视觉编程攻略(第2版).pdf
Python 3程序开发指南(第2版•修订版).pdf
Python Cookbook(第3版)中文版.pdf
Python入门经典.pdf
Python函数式编程(第2版).pdf
Python基础教程(第3版).pdf
Python性能分析与优化.pdf
Python数据分析基础.pdf
Python数据分析基础教程:NumPy学习指南(第2版).pdf
Python数据处理.pdf
Python数据挖掘入门与实践.pdf
Python数据科学与机器学习:从入门到实践.pdf
Python数据科学入门.pdf
Python数据科学手册.pdf
Python机器学习——预测分析核心算法.pdf
Python机器学习基础教程.pdf
Python机器学习经典实例.pdf
Python核心编程(第二版).pdf
Python深度学习.pdf
Python科学计算基础教程.pdf
Python科学计算最佳实践:SciPy指南.pdf
Python程序设计(第3版).pdf
Python经典实例.pdf
Python编程入门(第3版).pdf
Python编程入门(第3版)[Python Visual QuickStart Guide (Third Edtion)].rar
add 202003311047
4 months ago
Python编程导论(第2版).pdf
Python网络数据采集.pdf
Python自然语言处理.pdf
Python计算机视觉编程.pdf
Python语言及其应用.pdf
Python高手之路(第3版).pdf
Python高级编程(第2版).pdf
Readme.txt
Spark机器学习.pdf
Spark高级数据分析(第2版).pdf
TensorFlow机器学习项目实战.pdf
TensorFlow深度学习.pdf
【Excel示例文件】深度学习的数学.rar
【源代码】深度学习入门:基于Python的理论与实现.rar
人工智能(第2版).pdf
命令行中的数据科学.pdf
干净的数据:数据清洗入门与实践.pdf
数据科学入门.pdf
数据科学实战.pdf
机器学习与优化.pdf
机器学习实战.pdf
机器学习实践:测试驱动的开发方法.pdf
机器学习系统设计.pdf
概率编程实战.pdf
流畅的Python.pdf
深入理解Python特性.pdf
深度学习入门:基于Python的理论与实现.pdf
深度学习基础与实践.pdf
深度学习的数学.pdf
特征工程入门与实践.pdf
生成对抗网络项目实战.pdf
用Python写网络爬虫.pdf
白话机器学习算法.pdf
精通Python爬虫框架Scrapy.pdf
精通Python设计模式.pdf
精通特征工程.pdf
面向数据科学家的实用统计学.pdf
———-
Python資料科學與機器學習:從入門到實踐(code)
特徵工程入門與實踐(code)
Hadoop資料分析.pdf
Hadoop深度學習.pdf
Keras深度學習實戰.pdf
NumPy攻略:Python科學計算與資料分析.pdf
OpenCV電腦視覺程式設計攻略(第2版).pdf
Python 3程式開發指南(第2版•修訂版).pdf
Python Cookbook(第3版)中文版.pdf
Python入門經典.pdf
Python函數式程式設計(第2版).pdf
Python基礎教程(第3版).pdf
Python性能分析與優化.pdf
Python資料分析基礎.pdf
Python資料分析基礎教程:NumPy學習指南(第2版).pdf
Python資料處理.pdf
Python資料採擷入門與實踐.pdf
Python資料科學與機器學習:從入門到實踐.pdf
Python資料科學入門.pdf
Python資料科學手冊.pdf
Python機器學習——預測分析核心演算法.pdf
Python機器學習基礎教程.pdf
Python機器學習經典實例.pdf
Python核心程式設計(第二版).pdf
Python深度學習.pdf
Python科學計算基礎教程.pdf
Python科學計算最佳實踐:SciPy指南.pdf
Python程式設計(第3版).pdf
Python經典實例.pdf
Python程式設計入門(第3版).pdf
Python程式設計入門(第3版)[Python Visual QuickStart Guide (Third Edtion)].rar
add 202003311047
4 months ago
Python程式設計導論(第2版).pdf
Python網路資料獲取.pdf
Python自然語言處理.pdf
Python電腦視覺程式設計.pdf
Python語言及其應用.pdf
Python高手之路(第3版).pdf
Python高級程式設計(第2版).pdf
Readme.txt
Spark機器學習.pdf
Spark高級資料分析(第2版).pdf
TensorFlow機器學習項目實戰.pdf
TensorFlow深度學習.pdf
【Excel示例檔】深度學習的數學.rar
【原始程式碼】深度學習入門:基於Python的理論與實現.rar
人工智慧(第2版).pdf
命令列中的資料科學.pdf
乾淨的數據:數據清洗入門與實踐.pdf
資料科學入門.pdf
資料科學實戰.pdf
機器學習與優化.pdf
機器學習實戰.pdf
機器學習實踐:測試驅動的開發方法.pdf
機器學習系統設計.pdf
概率程式設計實戰.pdf
流暢的Python.pdf
深入理解Python特性.pdf
深度學習入門:基於Python的理論與實現.pdf
深度學習基礎與實踐.pdf
深度學習的數學.pdf
特徵工程入門與實踐.pdf
生成對抗網路專案實戰.pdf
用Python寫網路爬蟲.pdf
白話機器學習演算法.pdf
精通Python爬蟲框架Scrapy.pdf
精通Python設計模式.pdf
精通特徵工程.pdf
面向資料科學家的實用統計學.pdf