集體智慧編程 集体智慧编程

托比·西格蘭 (Toby Segaran)

買這商品的人也買了...

商品描述

<內容簡介>

本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得出有用的結論,通過覆雜的算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得出結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。
本書是Web開發者、架構師、應用工程師等的絕佳選擇。

<章節目錄>

前言
第1章集體智慧導言
什麽是集體智慧
什麽是機器學習
機器學習的局限
真實生活中的例子
學習型算法的其他用途
第2章提供推薦
協作型過濾
搜集偏好
尋找相近的用戶
推薦物品
匹配商品
構建一個基於del.icio.us的鏈接推薦系統
基於物品的過濾
使用MovieLens數據集
基於用戶進行過濾還是基於物品進行過濾
練習
笫3章發現群組
監督學習和無監督學習
單詞向量
分級聚類
繪制樹狀圖
列聚類
K—均值聚類
針對偏好的聚類
以二維形式展現數據
有關聚類的其他事宜
練習
第4章搜索與排名
搜索引擎的組成
一個簡單的爬蟲程序
建立索引
查詢
基於內容的排名
利用外部回指鏈接
從點擊行為中學習
練習
第5章優化
組團旅遊
描述題解
成本函數
隨機搜索
爬山法
模擬退火算法
遺傳算法
真實的航班搜索
涉及偏好的優化
網絡可視化
其他可能的應用場合
練習
第6章文檔過濾
過濾垃圾信息
文檔和單詞
對分類器進行訓練
計算概率
樸素分類器
費舍爾方法
將經過訓練的分類器持久化
過濾博客訂閱源
對特徵檢測的改進
使用Akismet
替代方法
練習
第7章決策樹建模
預測註冊用戶
引入決策樹
對樹進行訓練
選擇最合適的拆分方案
以遞歸方式構造樹
決策樹的顯示
對新的觀測數據進行分類
決策樹的剪枝
處理缺失數據
處理數值型結果
對住房價格進行建模
對“熱度”評價進行建模
什麽時候使用決策樹
練習
第8章構建價格模型
構造一個樣本數據集
k—最近鄰算法
為近鄰分配權重
交叉驗證
不同類型的變量
對縮放結果進行優化
不對稱分佈
使用真實數據——eBay API
何時使用k—最近鄰算法
練習
第9章高階分類:核方法與SVM
婚介數據集
數據中的難點
基本的線性分類
分類特徵
對數據進行縮放處理
理解核方法
支持向量機
使用LIBSVM
基於Facebook的匹配
練習
第10章尋找獨立特徵
搜集一組新聞
先前的方法
非負矩陣因式分解
結果呈現
利用股票市場的數據
練習
第11章智能進化
什麽是遺傳編程
將程序以樹形方式表示
構造初始種群
測試題解
對程序進行變異
交叉
構築環境
一個簡單的遊戲
更多可能性
練習
第12章算法總結
貝葉斯分類器
決策樹分類器
神經網絡
支持向量機
k—最近鄰
聚類
多維縮放
非負矩陣因式分解
優化
附錄A:第三方函數庫
附錄B:數學公式
索引

目錄大綱