大數據時代的算法:機器學習、人工智能及其典型實例 大数据时代的算法:机器学习、人工智能及其典型实例

劉凡平

  • 出版商: 電子工業
  • 出版日期: 2017-01-01
  • 定價: $294
  • 售價: 7.5$221
  • 語言: 簡體中文
  • 頁數: 220
  • 裝訂: 平裝
  • ISBN: 7121304295
  • ISBN-13: 9787121304293
  • 相關分類: 大數據 Big-dataMachine Learning
  • 立即出貨 (庫存 < 4)

買這商品的人也買了...

商品描述

<內容簡介>

 
本書介紹在因特網行業中經常涉及的算法,包括排序算法、查找算法、資源分配算法、路徑分析算法、相似度分析算法,以及與機器學習相關的算法,包括數據分類算法、聚類算法、預測與估算算法、決策算法、關聯規則分析算法及推薦算法。本書涉及的相關算法均為解決實際問題中的主流算法,對於工作和學習都有實際參考意義。本書是一本算法領域內的技術參考書籍,涵蓋數十種算法,通過由淺入深的介紹基礎算法和機器學習算法相關理論和應用,闡述了各個算法的應用場景及算法複雜度,使讀者對算法的理解不只是停留在錶面,還從應用的角度提供了大量實例,使讀者能夠快速、高效進階各類算法,並能夠熟練應用到將來的工作實踐中。

 

 

<章節目錄>
 

第1章算法基礎1
1.1基礎算法分析類型1
1.1.1分治法1
1.1.2動態規劃法2
1.1.3回溯法3
1.1.4分支限界法4
1.1.5貪心法4
1.2算法性能分析5
1.3概率論與數理統計基礎6
1.4距離計算8
1.4.1歐氏距離8
1.4.2馬氏距離9
1.4.3曼哈頓距離9
1.4.4切比雪夫距離9
1.4.5閔氏距離9
1.4.6海明距離10
1.5排序算法10
1.5.1快速排序11
1.5.2歸併排序11
1.5.3堆排序13
1.5.4基數排序15
1.5.5外排序16
1.6字符壓縮編碼17
1.6.1哈夫曼編碼17
1.6.2香農-範諾編碼21
1.7本章小結24

 


第2章數據查找與資源分配算法25
2.1數值查找算法25
2.1.1二分搜索算法25
2.1.2分塊查找27
2.1.3哈希查找28
2.2字符串查找算法30
2.2.1 Knuth-Morris-Pratt算法31
2.2.2 Boyer-Moore算法34
2.2.3 Sunday算法37
2.3海量數據中的查找39
2.3.1基於布隆過濾器查找39
2.3.2倒排索引查找41
2.4銀行家算法43
2.5背包問題45
2.5.1 0-1背包問題45
2.5.2部分背包問題47
2.6本章小結47

  


第3章路徑分析算法49
3.1基於Dijkstra算法的路徑分析49
3.1 .1應用示例:極地探險49
3.1.2基於Dijkstra的最短路徑規劃50
3.2基於Floyd算法的路徑分析53
3.2.1應用示例:任意兩個城市之間的最短路徑53
3.2.2 Floyd原理54
3.2. 3基於Floyd算法計算兩個城市最短距離56
3.3基於A*算法的路徑搜索58
3.3.1應用實例:繞過障礙區到達目的地58
3.3.2 A*算法與最短距離計算59
3.4基於維特比算法的概率路徑61
3.4.1應用實例:推斷天氣狀態61
3.4.2維特比算法思想62
3.4.3計算天氣狀態62
3.5最長公共子序列問題64
3.5.1概要64
3.5.2最長公共子串64
3.5.3最長公共子序列原理66
3.5.4實例:求兩字符串的最長公共子序列66
3.6本章小結68

 
第4章相似度分析算法69
4.1應用實例:海量網頁相似度分析69
4.2基於Jaccard相似係數的相似度計算70
4.2.1計算流程70
4.2.2狹義Jaccard相似係數71
4.2.3廣義Jaccard相似係數71
4.3基於MinHash的相似性算法71
4.3.1與Jaccard相似性關係71
4.3. 2計算網頁文本相似性過程72
4.4向量空間模型73
4.4.1詞袋模型73
4.4.2 TF-IDF算法74
4.5基於餘弦相似性算法的相似度分析76
4.5.1原理基礎76
4.5.2公式解析77
4.5.3計算網頁文本相似性過程77
4.6基於語義主題模型的相似度算法78
4.7基於SimHash算法的指紋碼80
4.7.1 SimHash引入81
4.7.2 SimHash的計算流程81
4.7.3計算重複信息83
4.8相似度算法的差異性84
4.9本章小結85

 


第5章數據分類算法86
5.1基於樸素貝葉斯分類器86
5.1.1有監督分類與無監督分類87
5.1.2應用實例:識別車釐子與櫻桃88
5.1.3分類流程歸納91
5.1.4應用擴展:垃圾郵件識別92
5.1.5常用評價指標96
5.2基於AdaBoost分類器100
5.2.1 AdaBoost概述100
5.2.2 AdaBoost算法具體流程101
5.2.3 AdaBoost算法的應用實例102
5.2.4 AdaBoost算法的優點105
5.3基於支持向量機的分類器105
5.3.1線性可分與線性不可分106
5.3.2感知器107
5.3.3支持向量機108
5.4基於K鄰近算法的分類器109
5.4.1應用實例:電影觀眾興趣發現109
5.4.2核心思想109
5.4.3電影觀眾興趣發現110
5.5本章小結113

 


第6章數據聚類算法115
6.1採用系統聚類法115
6.1. 1概述116
6.1.2最短距離法117
6.1.3重心聚類法119
6.1.4動態聚類法120
6.2基於K-Means聚類算法122
6.2.1應用實例:新聞聚類122
6.2.2邏輯流程123
6.2.3實現新聞聚類分析124
6.2.4 K-Means++ 128
6.2.5 K-中心點聚類算法129
6.2.6 ISODATA聚類算法130
6.3基於密度的DBSCAN算法131
6.4基於BIRCH算法的聚類分析133
6.4.1聚類特徵133
6.4.2聚類特徵樹134
6.5聚類與分類差異135
6.6本章小結136

 


第7章數據預測與估算算法137
7.1產生式模型與判別式模型137
7.2基於最大似然估計的預測138
7.3基於線性回歸的估算140
7.3.1概要140
7.3.2最小二乘法141
7.4基於最大期望算法分析143
7.5基於隱馬爾科夫模型預測144
7.5.1應用實例:高溫天氣與行為概率144
7.5.2原理分析145
7.5.3高溫天氣與行為概率147
7.6基於條件隨機場的序列預測151
7.6.1應用實例151
7.6.2原理分析151
7.6.3條件隨機場的優缺點153
7.7本章小結154

第8章數據決策分析算法155
8.1基於ID3算法的決策分析156
8.1.1信息量156
8.1.2信息熵156
8.1.3信息增益157
8.1.4 ID3算法流程157
8.1.5 ID3算法的應用157
8.2基於C4.5算法的分類決策樹159
8.2.1概要159
8.2.1應用實例159
8.3基於分類回歸樹的決策劃分161
8.3.1概要162
8.3.2應用實例:決策劃分163
8.3.2剪枝164
8.4基於隨機森林的決策分類168
8.4.1隨機森林的特點169
8.4.2隨機森林的構造方法169
8.4.3應用實例:決定車釐子的售價層次170
8.5本章小結172

 


第9章數據關聯規則分析算法174
9.1基於Apriori算法的關聯項分析174
9.1.1應用實例:超市的貨架擺放問題175
9.1.2基本概要175
9.1.3算法原理176
9.1.4有效擺放貨架176
9.2基於FP -Growth算法的關聯性分析179
9.2.1構建FP樹179
9.2.2頻繁項分析181
9.2.3與Apripri算法比較184
9.3基於Eclat算法的頻繁項集挖掘184
9.4本章小結185


第10章數據與推薦算法187
10.1概要187
10.1.1推薦算法發展188
10.1.2協同過濾推薦189
10.2基於Item-Based協同過濾推薦190
10.2.1 Item-Based基本思想190
10.2.2 Slope One實例:基於評分推薦190
10.3基於User-Based協同過濾推薦193
10.3.1應用實例:根據人群的推薦194
10.3.2 User-Based與Item-Based對比197
10.4基於潛在因子算法的推薦198
10.4.1應用實例:新聞推薦198
10.4.2流行度與推薦200
10.5推薦算法與效果評價201
10.6本章小結203

目錄大綱