輕松學大數據挖掘:算法、場景與數據產品 轻松学大数据挖掘:算法、场景与数据产品

汪榕

  • 出版商: 電子工業
  • 出版日期: 2018-01-01
  • 定價: $354
  • 售價: 7.0$248
  • 語言: 簡體中文
  • 頁數: 198
  • 裝訂: 平裝
  • ISBN: 7121329263
  • ISBN-13: 9787121329265
  • 相關分類: 大數據 Big-data
  • 立即出貨

買這商品的人也買了...

商品描述

伴隨著大數據時代的發展,數據價值的挖掘以及產品化逐漸被重視起來。本書作為該領域的入門教程,打破以往的數據工具與技術的介紹模式,憑借作者在大數據價值探索過程中的所感所悟,以故事的形式和讀者分享一個又一個的數據經歷,引人深思、耐人尋味。全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一系列學習體系;第7~9章為實踐應用與數據產品的介紹。讓所有學習大數據挖掘的朋友清楚如何落地,以及在整個數據生態圈所需要扮演的角色,全面瞭解數據的上下游。本書可作為相關工作經驗在3年以內的數據挖掘工程師、轉型入門做大數據挖掘的人士或者對數據感興趣的追逐者的輕松學習教程,引導大家有一個正確的學習方向,也可供對數據產品感興趣的產品經理和數據挖掘工程師閱讀參考。

目錄大綱

第1章 數據情懷篇 1
1.1 數據之禪 1
1.2 數據情懷 1
1.2.1 數據情懷這股勁 2
1.2.2 對數據情懷的理解 2
1.3 大數據時代的我們 4
1.4 成為DT時代的先驅者 6
1.4.1 數據沒有寒冬 6
1.4.2 數據生態問題 7
1.4.3 健康的數據生態 8
1.4.4 結尾 8
第2章 數據入門 9
2.1 快速掌握SQL的基礎語法 9
2.1.1 初識SQL 9
2.1.2 學會部署環境 10
2.1.3 常用的SQL語法(上篇) 13
2.1.4 常用的SQL語法(下篇) 17
2.2 在Windows 7操作系統上搭建IPython Notebook 25
2.2.1 學習Python的初衷 25
2.2.2 搭建IPython Notebook 26
2.2.3 IPython.exe Notebook的使用說明 27
2.2.4 配置IPython Notebook遠程調用 27
2.3 快速掌握Python的基本語法 30
2.4 用Python搭建數據分析體系 38
2.4.1 構建的初衷 38
2.4.2 構建思路 39
2.4.3 開發流程 39
2.5 Python學習總結 44
2.5.1 關於Python 45
2.5.2 Python其他知識點 45
第3章 大數據工具篇 48
3.1 Hadoop偽分佈式的安裝配置 48
3.1.1 部署CentOS環境 48
3.1.2 部署Java環境 50
3.1.3 部署Hadoop偽分佈式環境 51
3.2 數據挖掘中的MapReduce編程 54
3.2.1 學習MapReduce編程的目的 54
3.2.2 MapReduce的代碼規範 55
3.2.3 簡單的案例 58
3.3 利用MapReduce中的矩陣相乘 60
3.3.1 矩陣的概念 60
3.3.2 不同場景下的矩陣相乘 61
3.4 數據挖掘中的Hive技巧 67
3.4.1 面試心得 67
3.4.2 用Python執行HQL命令 67
3.4.3 必知的HQL知識 69
3.5 數據挖掘中的HBase技巧 75
3.5.1 知曉相關依賴包 75
3.5.2 從HBase中獲取數據 76
3.5.3 往HBase中存儲數據 77
第4章 大數據挖掘基礎篇 81
4.1 MapReduce和Spark做大數據挖掘的差異 81
4.1.1 初識Hadoop生態系統 81
4.1.2 知曉Spark的特點 83
4.1.3 編程的差異性 85
4.1.4 它們之間的靈活轉換 88
4.1.5 選擇合適的工具 89
4.2 搭建大數據挖掘開發環境 90
4.3 動手實現算法工程 99
4.3.1 知曉Spark On Yarn的運作模式 101
4.3.2 創作第一個數據挖掘算法 102
4.3.3 如何理解“樸素”二字 103
4.3.4 如何動手實現樸素貝葉斯算法 103
第5章 大數據挖掘認知篇 107
5.1 理論與實踐的差異 107
5.2 數據挖掘中的數據清洗 110
5.2.1 數據清洗的那些事 110
5.2.2 大數據的必殺技 111
5.2.3 實踐中的數據清洗 112
5.3 數據挖掘中的工具包 120
5.3.1 業務模型是何物 120
5.3.2 想做一個好的模型 121
第6章 大數據挖掘算法篇 123
6.1 時間衰變算法 123
6.1.1 何為時間衰變 123
6.1.2 如何理解興趣和偏好 124
6.1.3 時間衰變算法的抽象 124
6.1.4 採用Spark實現模型 126
6.2 熵值法 130
6.2.1 何為信息熵 130
6.2.2 熵值法的實現過程 130
6.2.3 業務場景的介紹 132
6.2.4 算法邏輯的抽象 133
6.3 預測響應算法 136
6.3.1 業務場景的介紹 136
6.3.2 構建模型的前期工作 137
6.3.3 常用的預測模型 138
6.4 層次分析算法 140
6.5 工程能力的培養與實踐 142
6.5.1 工程能力的重要性 142
6.5.2 利用Python實現層次分析法 144
第7章 用戶畫像實踐 148
7.1 用戶畫像的應用場景 148
7.1.1 背景描述 148
7.1.2 需求調研 149
7.2 用戶畫像的標籤體系 150
7.2.1 需求分析 151
7.2.2 標籤的構建 151
7.3 用戶畫像的模塊化思維 152
7.3.1 何為模塊化思維 152
7.3.2 用戶畫像與模塊化思維 153
7.4 用戶畫像的工程開發 154
7.4.1 對於開發框架的選擇 154
7.4.2 模塊化功能的設計 156
7.5 用戶畫像的智能營銷 158
7.5.1 業務營銷 158
7.5.2 營銷構思 159
7.5.3 技術難點 160
第8章 反欺詐實踐篇 162
8.1 “羊毛黨”監控的業務 162
8.1.1 “羊毛黨”的定義與特點 162
8.1.2 “羊毛”存在的必然性 163
8.1.3 “羊毛黨”的進化 164
8.1.4 “羊毛黨”存在的利與弊 165
8.1.5 “羊毛黨”監控平台的意義 165
8.2 “羊毛黨”監控的設備指紋 166
8.2.1 何為設備指紋 166
8.2.2 底層參數 167
8.2.3 應用場景 168
8.2.4 移動端的數據持久化 169
8.2.5 設備指紋生成算法 169
8.3 “羊毛黨”監控的數據驅動 170
8.3.1 監控的目的 170
8.3.2 數據如何“食用” 172
8.4 “羊毛黨”監控的實踐分享 173
第9章 大數據挖掘踐行篇 178
9.1 如何從0到1轉型到大數據圈子 178
9.2 數據挖掘從業者綜合能力評估 180
9.2.1 度量的初衷 180
9.2.2 綜合能力評估 181
9.2.3 個人指標體系(大數據挖掘) 182
9.3 給想要進入數據挖掘圈子的新人一點建議 183
9.3.1 誠信與包裝 184
9.3.2 籌備能力 185
9.3.3 投好簡歷 186
9.3.4 把握面試 186
9.3.5 結尾 187
後記 數據價值探索與數據產品實踐 188