Python數據分析與挖掘實戰(python_data_analysis_and_mining_action) 機器學習 電子書 原始碼

Python數據分析與挖掘實戰(python_data_analysis_and_mining_action) 機器學習 電子書 原始碼

Python數據分析與挖掘實戰(python_data_analysis_and_mining_action) 機器學習 電子書 原始碼


資料來源: https://www.books.com.tw/products/CN11296227

https://evanli.github.io/programming-book-3/Python/Python%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E4%B8%8E%E6%8C%96%E6%8E%98%E5%AE%9E%E6%88%98.pdf
https://github.com/apachecn/python_data_analysis_and_mining_action


GITHUB: https://github.com/jash-git/python_data_analysis_and_mining_action

前言
基礎篇
第1章數據挖掘基礎
1.1某知名連鎖餐飲企業的困惑
1.2從餐飲服務到數據挖掘
1.3數據挖掘的基本任務
1.4數據挖掘建模過程
1.4.1定義挖掘目標
1.4.2數據取樣
1.4.3數據探索
1.4.4數據預處理
1.4.5挖掘建模
1.4.6模型評價
1.5常用的數據挖掘建模工具

1.6小結


每2章Python數據分析簡介
2.1搭建Python開發平台
2.1.1所要考慮的問題
2.1.2基礎平台的搭建
2.2Python使用入門
2.2.1運行方式
2.2.2基本命令
2.2.3數據結構
2.2.4庫的導入與添加
2.3Python數據分析工具
2.3.1Numpy
2.3.2Scipy
2.3.3Matplotlib
2.3.4Pandas
2.3.5StatsModels
2.3.6Scikit—Leam
2.3.7Keras
2.3.8Gensim
2.4配套資源使用設置

2.5小結


第3章數據探索
3.1數據質量分析
3.1.1缺失值分析
3.1.2異常值分析
3.1.3—致性分析
3.2數據特征分析
3.2.1分布分析
3.2.2對比分析
3.2.3統計量分析
3.3Python主要數據探索函數
3.3.1基本統計特征函數
3.3.2拓展統計特征函數
3.3.3統計作圖函數

3.4小結


第4章數據預處理
4.1數據清洗
4.1.1缺失值處理
4.1.2異常值處理
4.2數據集成
4.2.1實體識別
4.2.2冗余屬性識別
413數據變換
4.3.1簡單函數變換
4.3.2規范化
4.3.3連續屬性離散化
4.3.4屬性構造
4.3.5小波變換
4.4數據規約
4.4.1屬性規約
4.4.2數值規約
4.5Python主要數據預處理函數

4.6小結


第5章挖掘建模
5.1分類與預測
5.1.1實現過程
5.1.2常用的分類與預測算法
5.1.3回歸分析
5.1.4決策樹
5.1.5人工神經網絡
5.1.6分類與預測算法評價
5.1.7Python分類預測模型特點
5.2聚類分析
5.2.1常用聚類分析算法
5.2.2K—Means聚類算法
5.2.3聚類分析算法評價
5.2.4Python主要聚類分析算法
5.3關聯規則
5.3.1常用關聯規則算法
5.3.2Apriori算法
5.4時序模式
5.4.1時間序列算法
5.4.2時間序列的預處理
5.4.3平穩時間序列分析
5.4.4非平穩時間序列分析
5.4.5Python主要時序模式算法
5.5離群點檢測134
5.5.1離群點檢測方法
5.5.2基於模型的離群點檢測方法
5.5.3基於聚類的離群點檢測方法

5.6小結


實戰篇
第6章電力竊漏電用戶自動識別
6.1背景與挖掘目標
6.2分析方法與過程
6.2.1數據抽取
6.2.2數據探索分析
6.2.3數據預處理
6.2.4構建專家樣本
6.3上機實驗
6.4拓展思考

6.5小結


第7章航空公司客戶價值分析
7.1背景與挖掘目標
7.2分析方法與過程
7.2.1數據抽取
7.2.2數據探索分析
7.2.3數據預處理
7.2.4模型構建
7.3上機實驗
7.4拓展思考
7.5小結
第8章中醫證型關聯規則挖掘
8.1背景與挖掘目標
8.2分析方法與過程
8.2.1數據獲取
8.2.2數據預處理
8.2.3模型構建
8.3上機實驗
8.4拓展思考

8.5小結


第9章基於水色圖像的水質評價
9.1背景與挖掘目標
9.2分析方法與過程
9.2.1數據預處理
9.2.2模型構建
9.2.3水質評價
9.3上機實驗
9.4拓展思考

9.5小結


第10章家用電器用戶行為分析與事件識別
10.1背景與挖掘目標
10.2分析方法與過程
10.2.1數據抽取
10.2.2數據探索分析
10.2.3數據預處理
10.2.4模型構建
10.2.5模型檢驗
10.3上機實驗
10.4拓展思考

10.5小結


第11章應用系統負載分析與磁盤容量預測
11.1背景與挖掘目標
11.2分析方法與過程
11.2.1數據抽取
11.2.2數據探索分析
11.2.3數據預處理
11.2.4模型構建
11.3上機實驗
11.4拓展思考

11.5小結


第12章電子商務網站用戶行為分析及服務推薦
12.1背景與挖掘目標
12.2分析方法與過程
12.2.1數據抽取
12.2.2數據探索分析
12.2.3數據預處理
12.2.4模型構建
12.3上機實驗
12.4拓展思考

12.5小結


第13章財政收入影響因素分析及
13.1預測模型
13.2背景與挖掘目標
分析方法與過程
13.2.1灰色預測與神經網絡的組合模型
13.2.2數據探索分析
13.2.3模型構建
13.3上機實驗
13.4拓展思考

13.5小結


第14章基於基站定位數據的商圈分析
14.1背景與挖掘目標
14.2分析方法與過程
14.2.1數據抽取
14.2.2數據探索分析
14.2.3數據預處理
14.2.4模型構建
14.3上機實驗
14.4拓展思考

14.5小結


第15章電商產品評論數據情感分析
15.1背景與挖掘目標
15.2分析方法與過程
15.2.1評論數據采集
15.2.2評論預處理
15.2.3文本評論分詞
15.2.4模型構建
15.3上機實驗
15.4拓展思考

15.5小結


參考文獻

10 thoughts on “Python數據分析與挖掘實戰(python_data_analysis_and_mining_action) 機器學習 電子書 原始碼

  1. P22心得整理 ~ PYTHON 著名函示庫 功能說明:

    提供数组支持,以及相应的高效的处理函数 Numpy

    提供矩阵支持,以及矩阵相关的数值计算模块 Scipy

    强大的数据可视化工具、作图库 Matplotlib

    强大、灵活的数据分析和探索工具 Pandas

    统计建模和计量经济学,包括描述统计、统计模型估计和推断 StatsModels

    支持回归、分类、聚类等的强大的机器学习库 Scikit-Learn

    深度学习库,用于建立神经网络以及深度学习模型 Keras

    用来做文本主题模型的库,文本挖掘可能用到 Gensim
    ~~~~~~~~~~~~~~
    提供數組支持,以及相應的高效的處理函數 Numpy

    提供矩陣支持,以及矩陣相關的數值計算模塊 Scipy

    強大的數據可視化工具、作圖庫 Matplotlib

    強大、靈活的數據分析和探索工具 Pandas
    統計建模和計量經濟學,包括描述統計、統計模型估計和推斷 StatsModels

    支持回歸、分類、聚類等的強大的機器學習庫 Scikit-Learn

    深度學習庫,用於建立神經網絡以及深度學習模型 Keras

    用來做文本主題模型的庫,文本挖掘可能用到 Gensim

  2. P34心得整理 過濾數據~判斷數據異常的方法

    01.如果數據服從正態分佈,在3σ原則下: 異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。
    正態分佈(Normal distribution)定義: https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83
    也稱“常態分佈”,又名高斯分佈(Gaussian distribution),最早由A.棣莫弗在求二項分佈的漸近公式中得到。CF高斯在研究測量誤差時從另一個角度導出了它。PS拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面有著重大的影響力。
    正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鍾形曲線。
    若隨機變量 X服從一個數學期望為μ、方差為σ^2的正態分佈,記為N(μ,σ^2)。其概率密度函數為正態分佈的期望值 μ決定了其位置,其標準差 σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。

    02.箱型圖過濾條件(X屬於異常值):
    X>QU+1.5IQR
    X

  3. P84~ 主要分类与预测算法简介 / 主要分類與預測算法簡介

    回归分析:是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回 回归分析归等模型

    决策树:采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值决策树从该节点向下分支,最终得到的叶节点是学习划分的类

    人工神经网络:是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网人工神经网络络的输入与输出变量之间关系的模型

    贝叶斯网络:又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最贝叶斯网络有效的理论模型之一

    支持向量机:是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,支持向量机在高维空间进行线性分析的算法

    回歸分析:是確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回 回歸分析歸等模型

    決策樹:採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值決策樹從該節點向下分支,最終得到的葉節點是學習劃分的類

    人工神經網絡:是一種模仿大腦神經網絡結構和功能而建立的信息處理系統,表示神經網人工神經網絡絡的輸入與輸出變量之間關係的模型

    貝葉斯網絡:又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最貝葉斯網絡有效的理論模型之一

    支持向量機:是一種通過某種非線性映射,把低維的非線性可分轉化為高維的線性可分,支持向量機在高維空間進行線性分析的算法

  4. 演算法評價 P100~102

    絕對誤差
    E=Y-Y’

    相對誤差
    E=(Y-Y’)/Y
    E=(Y-Y’)/Y*100%

    平均絕對誤差
    MAE=1/n * Σ(Y-Y’)

    均方誤差
    MSE=1/n * Σ((Y-Y’)*(Y-Y’))

    均方根誤差
    RMSE=√( 1/n * Σ((Y-Y’)*(Y-Y’)) )

    平均絕對百分比誤差
    MAPE=1/n * Σ|(Y-Y’)/Y|

    辨識準確度
    Accuracy=(TP+FP)/(TP+TN+FP+FN)

    識別精確度
    Precision=TP/(TP+FP)*100%

    反饋率
    Recall=TP/(TP+TN)

    其中
    Y:期望值/目標值
    Y’:估測值/運算結果
    TP (True Positives):正確的肯定表示正確肯定的分類數。
    TN (True Negatives):正確的否定表示正確否定的分類數。
    FP (False Positives):錯誤的肯定表示錯誤肯定的分類數。
    FN (False Negatives):錯誤的否定表示錯誤否定的分類數。

  5. P103

    逻辑回归: 比较基础的线性分类模型,很多时候是简单有效的选择

    SVM: 强大的模型,可以用来回归、预测、分类等,而根据选取不同的核函数。模型可以是线性的/非线性的

    决策树: 基于“分类讨论、逐步细化”思想的分类模型,模型直观,易解释,如 前面5.1.4节中可以直接给出决策图

    随机森林: 思想跟决策树类似,精度通常比决策树要高,缺点是由于其随机性,丧失了决策树的可解释性

    朴素贝叶斯: 基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释

    神经网络: 具有强大的拟合能力,可以用于拟合、分类等,它有很多个增强版本,如递神经网络、卷积神经网络、自编码器等,这些是深度学习的模型基础

    ~~~~~~~~~

    邏輯回歸: 比較基礎的線性分類模型,很多時候是簡單有效的選擇

    SVM: 強大的模型,可以用來回歸、預測、分類等,而根據選取不同的核函數。模型可以是線性的/非線性的

    決策樹: 基於“分類討論、逐步細化”思想的分類模型,模型直觀,易解釋,如 前面5.1.4節中可以直接給出決策圖

    隨機森林: 思想跟決策樹類似,精度通常比決策樹要高,缺點是由於其隨機性,喪失了決策樹的可解釋性

    樸素貝葉斯(貝式分類): 基於概率思想的簡單有效的分類模型,能夠給出容易理解的概率解釋

    神經網絡: 具有強大的擬合能力,可以用於擬合、分類等,它有很多個增強版本,如遞神經網絡、卷積神經網絡、自編碼器等,這些是深度學習的模型基礎

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *