大數據架構和算法實現之路:電商系統的技術實戰(Big Data Architecture and Algorithm in Action the Implementation in E-Commerce Systems) 大数据架构和算法实现之路:电商系统的技术实战

黃申

買這商品的人也買了...

商品描述

本書介紹了一些主流技術在商業項目中的應用,包括機器學習中的分類、聚類和線性回歸,搜索引擎,推薦系統,用戶行為跟蹤,架構設計的基本理念及常用的消息和緩存機制。在這個過程中,我們有機會實踐R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系統。本書大的特色就是,從商業需求出發演變到合理的技術方案和實現,因此根據不同的應用場景、不同的數據集合、不同的進階難度,我們為讀者提供了反復溫習和加深印象的機會。

名人推薦

在中國,隨著因特網市場的發展,電子商務及新興的因特網、移動因特網等領域充滿了挑戰和機會,而大數據的技術、架構和應用則成為未來各個公司競爭力的基礎。本書作者在電商領域擁有多年的實戰經驗,深諳相關係統的架構和實現。書中用生動的案例和場景來驅動,淺顯易懂地講述了電商系統中大數據相關的技術框架、架構實現以及應用等,是不可多得的大數據參考著作。

——韓卿Apache Kylin聯合創建者、PMC Chair,Kyligence聯合創建者、CEO 

從事因特網工作的同仁都明白深入理解顧客的需求是多麼重要,它已經成為戰勝競爭對手、贏得市場的關鍵因素。我們需要思考如何從技術的角度出發,充分利用大數據的知識和工具,全面提升顧客體驗,最後促使公司的業務增長。如果你想瞭解在電商領域怎樣才能做到技術驅動業務,那麼或許這本書將提供不少有趣的答案,包括技術方案的選型、對比和最終的實現細節。

——張雪峰餓了麼CTO 

近幾年,AlphaGo人機大戰、無人駕駛、深度學習等不斷地推進人工智能產業的發展。我們有幸見證了不少歷史性的時刻。與此同時,我也深信人工智能將會運用在更為廣泛的領域中。電子商務這個相對成熟的領域,也正因為人工智能的到來而不斷進化。本書的作者利用其多年的研發經驗,向我們展示瞭如何巧妙地利用機器學習算法提升電商平臺的品質和服務,並提出了一些很有創意的實現,值得一讀。

——張本宇雲腦科技(CloudBrain)創始人,前Google、Facebook技術骨幹

作者簡介

機器學習和大數據挖掘領域的技術專家和管理者。在上海交通大學獲得計算機科學與工程博士學位,先後在微軟亞洲研究院,eBay中國研發中心,1號店和飛牛網工作。“微軟學者獎”獲得者,IBM中國首屆“ExtremeBlue天才孵化計劃”成員。有超過10年的學術創新和實際研發的經驗,成功孵化了10多項關鍵算法,發表了20多篇國際學術論文,擁有10多項國際專利及申請。目前是《計算機工程》雜誌的特邀審稿專家,參與撰寫的互聯網圖書《玩轉電商》已經於2014年出版。

目錄大綱

推薦序
前言
引子

第一篇支持高效的運營

第1章方案設計和技術選型:分類

1.1分類的基本概念
1.2分類任務的處理流程
1.3算法:樸素貝葉斯和K最近鄰
1.3.1樸素貝葉斯
1.3.2K最近鄰
1.4分類效果評估
1.5相關軟件:R和Mahout 
1.5.1R簡介
1.5.2Mahout簡介
1.5.3Hadoop簡介
1.6案例實踐
1.6.1實驗環境設置
1.6.2中文分詞
1.6.3使用R進行樸素貝葉斯分類
1.6.4使用R進行K最近鄰分類
1.6.5單機環境使用Mahout運行樸素貝葉斯分類
1.6.6多機環境使用Mahout運行樸素貝葉斯分類
1.7更多的思考

第2章方案設計和技術選型:聚類

2.1聚類的基本概念
2.2算法:K均值和層次型聚類
2.2.1K均值聚類
2.2.2層次型聚類
2.3聚類的效果評估
2.4案例實踐
2.4.1使用R進行K均值聚類
2.4.2使用Mahout進行K均值聚類

第3章方案設計和技術選型:因變量連續的回歸分析

3.1線性回歸的基本概念
3.2案例實踐
3.2.1實驗環境設置
3.2.2R中數據的標準化
3.2.3使用R 線性回歸分析

第二篇為顧客發現喜歡的商品:基礎篇

第4章方案設計和技術選型:搜索

4.1搜索引擎的基本概念
4.1.1相關性
4.1.2及時性
4.2搜索引擎的評估
4.3為什麼不是數據庫
4.4系統框架
4.4.1離線預處理
4.4.2在線查詢
4.5常見的搜索引擎實現
4.5.1Lucene簡介
4.5.2Solr簡介
4.5.3Elasticsearch簡介
4.6案例實踐
4.6.1實驗環境設置
4.6.2基於Solr的實現
4.6 .3基於Elasticsearch的實現
4.6.4統一的搜索API 

第三篇為顧客發現喜歡的商品:高級篇

第5章方案設計和技術選型:NoSQL和搜索的整合

5.1問題分析
5.2HBase簡介
5.3結合HBase和搜索引擎
5.4案例實踐
5.4.1實驗環境設置
5.4.2HBase的部署
5.4.3HBase和搜索引擎的集成

第6章方案設計和技術選型:查詢分類和搜索的整合

6.1問題分析
6.2結合分類器和搜索引擎
6.3案例實踐
6.3.1實驗環境設置
6.3.2構建查詢分類器
6.3.3定制化的搜索排序
6.3.4整合查詢分類和定制化排序

第7章方 設計和技術選型:個性化搜索

7.1問題分析
7.2結合用戶畫像和搜索引擎
7.3案例實踐
7.3.1用戶畫像的讀取
7.3.2個性化搜索引擎
7.3.3結果對比

第8章方案設計和技術選型:搜索分片

8.1問題分析
8.2利用搜索的分片機制
8.3案例實踐
8.3.1Solr路由的實現
8.3.2Elasticsearch路由的實現

第9章方案設計和技術選型:搜索提示

9.1問題分析
9.2案例實踐:基礎方案
9.2.1Solr搜索建議和拼寫糾錯的實現
9.2.2Elasticsearch搜索建議和拼寫糾錯的實現
9.3改進方案
9.4案例實踐:改進方案

第10章方案設計和技術選型:推薦

10.1推薦系統的基本概念
10.2推薦的核心要素
10.2.1系統角色
10.2.2相似度
10.2.3相似度傳播框架
10.3推薦系統的分類
10.4混合模型
10.5系統架構
10.6Mahout中的推薦算法
10.7電商常見的推薦系統方案
10.7.1電商常見的推薦系統方案
10.7.2相似度的計算
10.7.3協同過濾
10.7.4結果的查詢
10.8案例實踐
10.8.1基於內容特 徵的推薦
10.8.2基於行為特徵的推薦

第四篇獲取數據,跟踪效果

第11章方案設計和技術選型:行為跟踪

11.1基本概念
11.1.1網站的核心框架
11.1.2行為數據的類型
11.1. 3行為數據的模式
11.1.4設計理念
11.2使用谷歌分析
11.3自行設計之Flume、HDFS和Hive的整合
11.3.1數據的收集——Flume簡介
11.3.2數據的存儲——HadoopHDFS回顧
11.3.3批量數據分析——Hive簡介
11.3.4Flume、HDFS和Hive的整合方案
11.4自行設計之Flume、Kafka和Storm的整合
11.4.1實時性數據分析之Kafka簡介
11.4.2實時性數據分析之Storm簡介
11.4.3Flume、 Kafka和Storm的整合方案
11.5案例實踐
11.5.1數據模式的設計
11.5.2實驗環境設置
11.5.3谷歌分析實戰
11.5.4自主設計實戰之Flume、HDFS和Hive的整合
11.5.5自主設計實戰之Flume 、Kafka和Storm的整合
11.6更多的思考
後記