大數據挖掘:系統方法與實例分析[Big Data]

大數據挖掘:系統方法與實例分析[Big Data]

大數據挖掘:系統方法與實例分析[Big Data]

作者:周英 卓金武 卞月青 著

ISBN:9787111532675

 

http://www.3dwoo.com/showBookDetail.asp?nb=44082

 

前言:
什么要寫這本書

大數據是當前最熱的概念之一,在“互聯網+”的背景下,大數據的開放、挖掘和應用已成為趨勢。大數據已經成為國家科技競爭的前沿,以及產業競爭力和商業模式創新的源泉。聯合國“數據脈動”計劃、美國“大數據”戰略、英國“數據權”運動、韓國大數據中心戰略等先后開啟了大數據創新戰略的大幕。國務院發布《關于促進大數據發展的行動綱要》,重點強調政府數據的互聯互通、共享和開放,并明確提出了具體的時間表。大數據作為目前全球科技創新最主要的戰場,有望迎來百花齊放的繁榮盛景。

一花獨放不是春,百花齊放春滿園,大數據生態系統也生機勃勃。繼貴陽大數據交易所成立以來,多個城市相繼成立自己的大數據中心,各種數據存儲中心和數據評估中心也如雨后春筍。然而,還有相當多的朋友并不了解什么是大數據。市面上介紹大數據概念的書多,但介紹如何應用大數據的書并不多。

大數據的落腳點還是在于應用,如果不能從大數據中挖掘到有利于社會發展的知識,大數據也就沒有意義了。數據挖掘技術是從數據中挖掘有用知識的一門系統性的技術,剛好解決了數據利用的問題,所以數據挖掘與大數據便很自然地結合在一起了,故而也就有了本書的構想。

本書特色

縱觀全書,可發現本書的特點鮮明,主要表現在以下六個方面:

1)方法務實,學以致用。本書介紹的方法都是數據挖掘中的主流方法,都經過實踐的檢驗,具有較強的實踐性。對于每種方法,本書基本都給出了完整、詳細的源代碼,對于讀者來說,具有非常大的參考價值,很多程序可供讀者學習并直接套用。

2)知識系統,易于理解。本書的知識體系應該是當前數據挖掘書籍中最全、最完善的,從基本概念與技術,到項目實踐,再到理念的整體架構,使得概念、技術、實踐、經驗四位一體,自然形成一套大數據挖掘的完整體系。而對于具體的技術,也是脈絡清晰、循序漸進,不僅包含詳細的數據挖掘流程、數據準備方法、數據探索方法,還包含六大類數據挖掘主體方法、時序數據挖掘方法、智能優化方法。正因為有完整的知識體系,讀者讀起來才有很好的完整感,從而更利于理解數據挖掘的知識體系。

3)結構合理,易于學習。在講解方法時,由淺入深,循序漸進,讓初學者知道入門的切入點,讓專業人員又有值得借鑒的干貨。本書幫助讀者在學習數據挖掘時建立一個循序漸進的過程,使其在短時間內成為一位數據挖掘高手。

4)案例實用,易于借鑒。本書選擇的案例都是來自不同行業的經典案例,并且帶有數據和程序,所以很容易讓讀者對案例產生共鳴,同時可以利用案例的數據,進行模仿式的學習,同時,書中的程序也能提高讀者的學習效率,可以直接借鑒這些案例,并應用到自己的商業項目中。

5)理論與實踐相得益彰。對于本書的每個方法,除了理論的講解,都配有一個典型的應用案例,讀者可以通過案例加深對理論的理解,同時理論也讓案例的應用更有信服力。技術的介紹都是以實現實例為目的,同時提供大量技術實現的源程序,方便讀者學習,注重實踐和應用,秉承筆者務實、切近讀者的寫作風格。

6)內容獨特,趣味橫生,文字簡潔,易于閱讀。很多方法和內容是同類書籍所沒有的,這無疑增強了本書的新穎性和趣味性。另外,在本書編寫過程中,在保證描述精準的前提下,我們摒棄了那些刻板、索然無味的文字,讓文字更有活力,更易于閱讀。

如何閱讀本書

全書內容分四個部分:

第一部分(基礎篇)主要介紹大數據和數據挖掘的基本概念,以及數據挖掘的實現過程、主要內容等基礎知識。

第二部分(技術篇)是數據挖掘技術的主體部分,系統介紹了數據挖掘的主流技術,該部分又分三個層次:

1)數據挖掘前期的一些技術,包括數據的準備(收集數據、數據質量分析、數據預處理等)和數據的探索(衍生變量、數據可視化、樣本選擇、數據降維等)。

2)數據挖掘的六大類核心方法,包括關聯規則、回歸、分類、聚類、預測和診斷。對于每類方法,則詳細介紹了其包含的典型算法,包括基本思想、應用場景、算法步驟、MATLAB實現程序、應用實例。

3)數據挖掘中特殊的實用技術,一是關于時序數據挖掘的時間序列技術;二是關于優化的智能優化方法,它們在數據技術體系中不可或缺。時序數據是數據挖掘中的一類特殊數據,所以針對該類特殊的數據類型,又介紹了時間序列方法。另外,數據挖掘離不開優化,所以又介紹了兩種比較常用的優化方法——遺傳算法和模擬退火算法。

第三部分是項目篇,主要講解數據挖掘技術在各行業的典型應用實例。所介紹的項目分別來自銀行、證券、機械、礦業、生命科學和社會科學等行業和學科,基本覆蓋數據挖掘技術應用的主流行業,通過這些項目的研學,讀者也可以了解各行業數據挖掘技術的應用領域和應用情況,培養對行業的敏感度。

第四部分是理念篇,是數據挖掘應用思想和經驗的整合。本篇包含第20和21兩章,第20章側重數據挖掘項目實施過程中各種技術應用的經驗和對各方面問題的權衡和拿捏,體現了技術應用中藝術性的一面;第21章側重數據挖掘項目實施過程中的項目管理和團隊管理,以及對團隊中的個體如何成長的經驗分享。

其中,前三篇為本書的重點內容,建議重點研讀,第四篇偏經驗,適合結合項目實踐反復閱讀、體會。

讀者對象

從事大數據挖掘的專業人士。

統計、數據挖掘、機器學習等學科的教師和學生。

從事數據挖掘、數據分析、數據管理工作的專業人士。

需要用到數據挖掘技術的各領域的科研工作者。

希望學習MATLAB的工程師或科研工作者,因為本書的代碼都是用MATLAB編寫的,所以對于希望學習MATLAB的讀者來說,也是一本很好的參考書。

其他對大數據挖掘感興趣的人員。

致讀者

專業人士

對于從事大數據挖掘的專業人士來說,大家可以關注整個數據挖掘的知識體系流程,因為本書的數據挖掘知識體系應該是當前數據挖掘書籍中最全、最完善的。另外,數據挖掘流程也介紹得很詳細,具有很強的操作性。此外,書中的算法實例和項目實例,也是本書的特色,值得借鑒。

教師

本書系統地介紹了大數據挖掘的理論、技術、項目、工具和理念,可以作為統計、計算機、經管、數學、信息科學等專業本科或研究生的教材。書中的內容雖然系統,但也相對獨立,教師可以根據課程的學時安排和專業方向的側重點,選擇合適的內容進行課堂教學,其他內容則可以作為參考章節。授課部分,一般會包含第一篇和第二篇的章節,而如果課時較多,則可以增加其他章節中的一些項目實例的學習。
內容簡介:
內容簡介
本書是大數據挖掘領域的扛鼎之作,由全球科學計算領域的領導者MathWorks(MATLAB公司)官方的資深數據挖掘專家撰寫,MathWorks官方及多位專家聯袂推薦。
它從技術、方法、案例和最佳實踐4個維度對如何系統、深入掌握大數據挖掘提供了詳盡的講解。
技術:不僅講解了大數據挖掘的原理、過程、工具,還講解了大數據的準備、處理、與探索;
方法:既深入地講解了關聯規則方法、回歸方法、分類方法、聚類方法、預測方法、診斷方法等6大類數據挖掘主體方法,又重點講解了時間序列方法和智能優化方法兩種數據挖掘中常用的方法;
案例:詳細地再現了來自銀行、證券、機械、礦業、生命科學和社會科學等6大領域的經典案例,不僅有案例的實現過程,而且還有案例原理和預備知識的的講解;
最佳實踐:首先總結了數據挖掘中確定挖掘、應用技術以及如何平衡的藝術,然后總結了數據挖掘的項目管理和團隊管理的藝術。
目錄:
序言

前言

第一篇 基礎篇

第1章 認識大數據挖掘 ………………3

1.1 大數據與數據挖掘 ……………………3

1.1.1 何為大數據 …………………………3

1.1.2 大數據的價值 ………………………5

1.1.3 大數據與數據挖掘的關系 …………5

1.2 數據挖掘的概念和原理 ………………6

1.2.1 什么是數據挖掘 ……………………6

1.2.2 數據挖掘的原理 ……………………8

1.3 數據挖掘的內容 ………………………8

1.3.1 關聯 …………………………………8

1.3.2 回歸 ………………………………10

1.3.3 分類 ………………………………10

1.3.4 聚類 ………………………………11

1.3.5 預測 ………………………………12

1.3.6 診斷 ………………………………13

1.4 數據挖掘的應用領域 ………………13

1.4.1 零售業 ……………………………13

1.4.2 銀行業 ……………………………14

1.4.3 證券業 ……………………………15

1.4.4 能源業 ……………………………16

1.4.5 醫療行業 …………………………17

1.4.6 通信行業 …………………………18

1.4.7 汽車行業 …………………………19

1.4.8 公共事業 …………………………19

1.5 大數據挖掘的要點 …………………20

1.6 小結 …………………………………22

參考文獻 …………………………………22

第2章 數據挖掘的過程及工具 ……23

2.1 數據挖掘過程概述 …………………23

2.2 挖掘目標的定義 ……………………24

2.3 數據的準備 …………………………24

2.4 數據的探索 …………………………26

2.5 模型的建立 …………………………27

2.6 模型的評估 …………………………30

2.7 模型的部署 …………………………32

2.8 工具的比較與選擇 …………………32

2.9 小結 …………………………………33

參考文獻 …………………………………33

第3章 MATLAB數據挖掘 快速入門 ……………………35

3.1 MATLAB快速入門 …………………35

3.1.1 MATLAB概要 …………………35

3.1.2 MATLAB的功能 ………………36

3.1.3 快速入門實例 ……………………37

3.1.4 入門后的提高 ……………………43

3.2 MATLAB常用技巧 …………………44

3.3 MATLAB開發模式 …………………45

3.4 MATLAB數據挖掘實例 ……………46

3.5 MATLAB集成數據挖掘工具 ………48

3.5.1 分類學習機簡介 …………………48

3.5.2 交互探索算法的方式 ……………48

3.5.3 MATLAB分類學習機應用實例 ………………………………49

3.6 小結 …………………………………54

第二篇?技術篇

第4章?數據的準備 57

4.1 數據的收集 57

4.1.1 認識數據 57

4.1.2 數據挖掘的數據源 58

4.1.3 數據抽樣 59

4.1.4 金融行業的數據源 60

4.1.5 從雅虎獲取交易數據 62

4.1.6 從大智慧獲取財務數據 64

4.1.7 從Wind獲取高質量數據 66

4.2 數據質量分析 68

4.2.1 數據質量分析的必要性 68

4.2.2 數據質量分析的目的 68

4.2.3 數據質量分析的內容 68

4.2.4 數據質量分析方法 69

4.2.5 數據質量分析的結果及應用 73

4.3 數據預處理 74

4.3.1 為什么需要數據預處理 74

4.3.2 數據預處理的方法 74

4.3.3 數據清洗 76

4.3.4 數據集成 79

4.3.5 數據歸約 79

4.3.6 數據變換 80

4.4 小結 81

參考文獻 82

第5章?數據的探索 83

5.1 衍生變量 84

5.1.1 衍生變量的定義 84

5.1.2 變量衍生的原則和方法 84

5.1.3 常用的股票衍生變量 85

5.1.4 評價型衍生變量 89

5.1.5 衍生變量的數據收集與集成 91

5.2 數據的統計 92

5.2.1 基本描述性統計 92

5.2.2 分布描述性統計 93

5.3 數據可視化 94

5.3.1 基本可視化方法 94

5.3.2 數據分布形狀可視化 95

5.3.3 數據關聯情況可視化 97

5.3.4 數據分組可視化 97

5.4 樣本選擇 98

5.4.1 樣本選擇的方法 98

5.4.2 樣本選擇應用實例 99

5.5 數據降維 101

5.5.1 主成分分析基本原理 101

5.5.2 PCA應用案例:企業綜合實力排序 103

5.5.3 相關系數降維 106

5.6 小結 107

參考文獻 108

第6章?關聯規則方法 109

6.1 關聯規則概要 109

6.1.1 關聯規則的背景 109

6.1.2 關聯規則的基本概念 110

6.1.3 關聯規則的分類 111

6.1.4 關聯規則挖掘常用算法 112

6.2 Apriori算法 112

6.2.1 Apriori算法基本思想 112

6.2.2 Apriori算法步驟 113

6.2.3 Apriori算法實例 113

6.2.4 Apriori算法程序實現 115

6.2.5 Apriori算法優缺點 118

6.3 FP-Growth算法 118

6.3.1 FP-Growth算法步驟 118

6.3.2 FP-Growth算法實例 119

6.3.3 FP-Growth算法優缺點 121

6.4 應用實例:行業關聯選股法 122

6.5 小結 123

參考文獻 124

第7章?數據回歸方法 125

7.1 一元回歸 126

7.1.1 一元線性回歸 126

7.1.2 一元非線性回歸 130

7.1.3 一元多項式回歸 135

7.2 多元回歸 136

7.2.1 多元線性回歸 136

7.2.2 多元多項式回歸 139

7.3 逐步回歸 141

7.3.1 逐步回歸基本思想 141

7.3.2 逐步回歸步驟 142

7.3.3 逐步回歸的MATLAB方法 143

7.4 Logistic回歸 144

7.4.1 Logistic模型 144

7.4.2 Logistic回歸實例 145

7.5 應用實例:多因子選股模型的

實現 148

7.5.1 多因子模型基本思想 148

7.5.2 多因子模型的實現 148

7.6 小結 151

參考文獻 151

第8章?分類方法 153

8.1 分類方法概要 153

8.1.1 分類的概念 153

8.1.2 分類的原理 154

8.1.3 常用的分類方法 155

8.2 K-近鄰 155

8.2.1 K-近鄰原理 155

8.2.2 K-近鄰實例 156

8.2.3 K-近鄰特點 159

8.3 貝葉斯分類 160

8.3.1 貝葉斯分類原理 160

8.3.2 樸素貝葉斯分類原理 160

8.3.3 樸素貝葉斯分類實例 162

8.3.4 樸素貝葉斯特點 163

8.4 神經網絡 163

8.4.1 神經網絡原理 163

8.4.2 神經網絡實例 165

8.4.3 神經網絡特點 165

8.5 邏輯斯蒂 166

8.5.1 邏輯斯蒂原理 166

8.5.2 邏輯斯蒂實例 166

8.5.3 邏輯斯蒂特點 166

8.6 判別分析 167

8.6.1 判別分析原理 167

8.6.2 判別分析實例 168

8.6.3 判別分析特點 168

8.7 支持向量機 168

8.7.1 支持向量機基本思想 169

8.7.2 支持向量機理論基礎 169

8.7.3 支持向量機實例 172

8.7.4 支持向量機特點 172

8.8 決策樹 173

8.8.1 決策樹的基本概念 173

8.8.2 決策樹的構建步驟 173

8.8.3 決策樹實例 177

8.8.4 決策樹特點 177

8.9 分類的評判 177

8.9.1 正確率 177

8.9.2 ROC曲線 180

8.10 應用實例:分類選股法 181

8.10.1 案例背景 181

8.10.2 實現方法 182

8.11 延伸閱讀:其他分類方法 185

8.12 小結 185

參考文獻 186

第9章?聚類方法 187

9.1 聚類方法概要 187

9.1.1 聚類的概念 187

9.1.2 類的度量方法 189

9.1.3 聚類方法的應用場景 190

9.1.4 聚類方法分類 191

9.2 K-means方法 192

9.2.1 K-means原理和步驟 192

9.2.2 K-means實例1:自主編程 193

9.2.3 K-means實例2:集成函數 194

9.2.4 K-means特點 198

9.3 層次聚類 198

9.3.1 層次聚類原理和步驟 198

9.3.2 層次聚類實例 199

9.3.3 層次聚類特點 201

9.4 神經網絡聚類 202

9.4.1 神經網絡聚類原理和步驟 202

9.4.2 神經網絡聚類實例 202

9.4.3 神經網絡聚類特點 203

9.5 模糊C-均值方法 203

9.5.1 FCM原理和步驟 203

9.5.2 FCM應用實例 205

9.5.3 FCM算法特點 205

9.6 高斯混合聚類方法 206

9.6.1 高斯混合聚類原理和步驟 206

9.6.2 高斯混合聚類實例 208

9.6.3 高斯混合聚類特點 209

9.7 類別數的確定方法 209

9.7.1 原理 209

9.7.2 實例 210

9.8 應用實例:股票聚類分池 212

9.8.1 聚類目標和數據描述 212

9.8.2 實現過程 212

9.8.3 結果及分析 214

9.9 延伸閱讀 215

9.9.1 目前聚類分析研究的主要內容 215

9.9.2 SOM智能聚類算法 216

9.10 小結 217

參考文獻 218

第10章?預測方法 219

10.1 預測方法概要 219

10.1.1 預測的概念 219

10.1.2 預測的基本原理 220

10.1.3 預測的準確度評價及影響因素 221

10.1.4 常用的預測方法 222

10.2 灰色預測 223

10.2.1 灰色預測原理 223

10.2.2 灰色預測的實例 225

10.3 馬爾科夫預測 226

10.3.1 馬爾科夫預測原理 226

10.3.2 馬爾科夫過程的特性 227

10.3.3 馬爾科夫預測實例 228

10.4 應用實例:大盤走勢預測 232

10.4.1 數據的選取及模型的建立 232

10.4.2 預測過程 233

10.4.3 預測結果與分析 234

10.5 小結 234

參考文獻 235

第11章?診斷方法 237

11.1 離群點診斷概要 237

11.1.1 離群點診斷的定義 237

11.1.2 離群點診斷的作用 238

11.1.3 離群點診斷方法分類 239

11.2 基于統計的離群點診斷 240

11.2.1 理論基礎 240

11.2.2 應用實例 241

11.2.3 優點與缺點 242

11.3 基于距離的離群點診斷 243

11.3.1 理論基礎 243

11.3.2 應用實例 244

11.3.3 優點與缺點 244

11.4 基于密度的離群點挖掘 245

11.4.1 理論基礎 245

11.4.2 應用實例 246

11.4.3 優點與缺點 247

11.5 基于聚類的離群點挖掘 247

11.5.1 理論基礎 247

11.5.2 應用實例 248

11.5.3 優點與缺點 249

11.6 應用實例:離群點診斷股票買賣擇時 249

11.7 延伸閱讀:新興的離群點挖掘方法 251

11.7.1 基于關聯的離群點挖掘 251

11.7.2 基于粗糙集的離群點挖掘 251

11.7.3 基于人工神經網絡的離群點挖掘 251

11.8 小結 252

參考文獻 252

第12章?時間序列方法 253

12.1 時間序列基本概念 253

12.1.1 時間序列的定義 253

12.1.2 時間序列的組成因素 254

12.1.3 時間序列的分類 255

12.1.4 時間序列分析方法 255

12.2 平穩時間序列分析方法 256

12.2.1 移動平均法 256

12.2.2 指數平滑法 257

12.3 季節指數預測法 258

12.3.1 季節性水平模型 258

12.3.2 季節性趨勢模型 259

12.4 時間序列模型 259

12.4.1 ARMA模型 259

12.4.2 ARIMA模型 259

12.4.3 ARCH模型 260

12.4.4 GARCH模型 261

12.5 應用實例:基于時間序列的股票預測 261

12.6 小結 264

參考文獻 264

第13章?智能優化方法 265

13.1 智能優化方法概要 266

13.1.1 智能優化方法的概念 266

13.1.2 常用的智能優化方法 266

13.2 遺傳算法 268

13.2.1 遺傳算法的原理 268

13.2.2 遺傳算法的步驟 268

13.2.3 遺傳算法實例 274

13.2.4 遺傳算法的特點 275

13.3 模擬退火算法 276

13.3.1 模擬退火算法的原理 276

13.3.2 模擬退火算法的步驟 278

13.3.3 模擬退火算法實例 280

13.3.4 模擬退火算法的特點 285

13.4 延伸閱讀:其他智能方法 286

13.4.1 粒子群算法 286

13.4.2 蟻群算法 287

13.5 小結 288

參考文獻 288

第三篇?項目篇

第14章?數據挖掘在銀行信用評分中的應用 291

14.1 什么是信用評分 291

14.1.1 信用評分的概念 291

14.1.2 信用評分的意義 293

14.1.3 個人信用評分的影響因素 293

14.1.4 信用評分的方法 294

14.2 DM法信用評分實施過程 295

14.2.1 數據的準備 295

14.2.2 數據預處理 295

14.2.3 Logistic模型 296

14.2.4 神經網絡模型 297

14.3 AHP信用評分方法 298

14.3.1 AHP法簡介 298

14.3.2 AHP法信用評分實例 298

14.4 延伸閱讀:企業信用評級 299

14.5 小結 300

第15章?數據挖掘在量化選股中的應用 301

15.1 什么是量化選股 301

15.1.1 量化選股定義 301

15.1.2 量化選股實現過程 302

15.1.3 量化選股的分類 304

15.2 數據的處理及探索 304

15.2.1 獲取股票日交易數據 304

15.2.2 計算指標 307

15.2.3 數據標準化 312

15.2.4 變量篩選 313

15.3 模型的建立及評估 315

15.3.1 股票預測的基本思想 315

15.3.2 模型的訓練及評價 315

15.4 組合投資的優化 317

15.4.1 組合投資的理論基礎 317

15.4.2 組合投資的實現 320

15.5 量化選股的實施 323

15.6 小結 323

參考文獻 324

第16章?數據挖掘在工業故障診斷中的應用 325

16.1 什么是故障診斷 325

16.1.1 故障診斷的概念 325

16.1.2 故障診斷的方法 326

16.1.3 數據挖掘技術的故障診斷原理 326

16.2 DM設備故障診斷實例 327

16.2.1 加載數據 327

16.2.2 探索數據 327

16.2.3 設置訓練樣本的測試樣本 332

16.2.4 決策樹方法訓練模型 332

16.2.5 集成決策樹方法訓練模型 332

16.3 小結 333

第17章?數據挖掘技術在礦業工程中的應用 335

17.1 什么是礦業工程 335

17.1.1 礦業工程的內容 335

17.1.2 礦業工程的數據及特征 336

17.1.3 數據挖掘技術在礦業工程中的作用 337

17.2 礦業工程數據挖掘實例:提純預測 337

17.2.1 數據的集成 337

17.2.2 采用插值方式處理缺失值 338

17.2.3 設置建模數據及驗證方式 338

17.2.4 多元線性回歸模型 338

17.3 小結 343

參考文獻 343

第18章?數據挖掘技術在生命科學中的應用 345

18.1 什么是生命科學 345

18.1.1 生命科學的研究內容 345

18.1.2 生命科學中大數據的特征 346

18.1.3 數據挖掘技術在生命科學中的作用 347

18.2 生命科學數據挖掘實例:基因表達模式挖掘 349

18.2.1 加載數據 349

18.2.2 數據初探 349

18.2.3 數據清洗 350

18.2.4 層次聚類 350

18.2.5 K-means聚類 352

18.3 小結 353

參考文獻 353

第19章?數據挖掘在社會科學研究中的應用 355

19.1 什么是社會科學研究 355

19.1.1 社會學研究的內容 355

19.1.2 社會學研究的方法 356

19.1.3 數據挖掘在社會科學研究中的應用情況 356

19.2 社會科學挖掘實例:人類行為

研究 358

19.2.1 加載數據 358

19.2.2 數據可視化 358

19.2.3 神經網絡 359

19.2.4 混淆矩陣評價分類器 359

19.2.5 ROC法評價分類器 361

19.2.6 變量優選 361

19.2.7 用優選的變量訓練網絡 362

19.3 小結 362

第四篇?理念篇

第20章?數據挖掘的藝術 365

20.1 確定數據挖掘目標的藝術 365

20.1.1 數據挖掘中的商業意識 365

20.1.2 商業意識到數據挖掘目標 366

20.1.3 商業意識的培養 366

20.2 應用技術的藝術 367

20.2.1 技術服務于業務的藝術 367

20.2.2 算法選擇的藝術 368

20.2.3 與機器配合的藝術 369

20.3 數據挖掘中平衡的藝術 370

20.3.1 客觀與主觀的平衡 370

20.3.2 數據量的平衡 370

20.4 理性對待大數據時代 371

20.4.1 發展大數據應避免的誤區 371

20.4.2 正確認識大數據的價值 372

20.4.3 直面大數據應用面臨的挑戰 374

20.5 小結 375

參考文獻 375

第21章?數據挖掘的項目管理和團隊管理 377

21.1 數據挖掘項目實施之道 377

21.1.1 確定可行的目標 377

21.1.2 遵守數據挖掘流程 377

21.1.3 項目的質量控制 378

21.1.4 項目效率 378

21.1.5 成本控制 379

21.1.6 數據挖掘過程改進 379

21.2 數據挖掘團隊的組建 380

21.2.1 數據挖掘項目團隊的構成 380

21.2.2 團隊負責人 380

21.3 數據挖掘團隊的管理 381

21.3.1 團隊管理的目標與策略 381

21.3.2 規范化的管理 381

21.4 優秀數據挖掘人才的修煉 382

21.4.1 專業知識與技術 382

21.4.2 快速獲取知識的技能 383

21.4.3 提高表達能力 383

21.4.4 提高管理能力 383

21.4.5 培養對數據挖掘的熱情 384

21.5 小結 384

 

 

 

 


 

 


發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *