寫給程式師的資料採擷實踐指南 (A Programmer's Guide to Data Mining The Ancient Art of the Numerati) 写给程序员的数据挖掘实践指南

[美] Ron Zacharski 扎哈爾斯基

  • 出版商: 人民郵電
  • 出版日期: 2015-11-01
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 309
  • 裝訂: 平裝
  • ISBN: 7115336350
  • ISBN-13: 9787115336354
  • 相關分類: Data-mining
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

 

<內容簡介>

數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。大多數數據挖掘的教材都專註於介紹理論基礎,因而往往難以理解和學習。
扎哈爾斯基編著的《寫給程序員的數據挖掘實踐指南》是寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐數據挖掘、應用集體智慧並構建推薦系統。全書共8章,介紹了數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、演算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容。本書採用「在實踐中學習」的方式,用生動的圖示、大量的表格、簡明的公式、實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給出了習題和練習,幫助讀者鞏固所學的知識。
本書適合對數據挖掘、數據分析和推薦系統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕鬆有趣的數據挖掘課程教學參考書。

 

<章節目錄>

第1章  數據挖掘簡介及本書使用方法
  歡迎來到21世紀
  並不只是對象
  TB級挖掘是現實不是科幻
  本書體例
第2章  協同過濾——愛你所愛
  如何尋找相似用戶
  曼哈頓距離
  歐氏距離
  N維下的思考
  一般化
  Pymon中數據表示方法及代碼
  計算曼哈頓距離的代碼
  用戶的評級差異
  皮爾遜相關係數
  在繼續之前稍微休息一下
  最後一個公式——餘弦相似度
  相似度的選擇
  一些怪異的事情
  k近鄰
  Python的一個推薦類
  一個新數據集
第3章  協同過濾——隱式評級及基於物品的過濾
  隱式評級
  調整後的餘弦相似度
  Slope One演算法
  Slope One演算法的粗略描述圖
  基於Python的實現
  加權Slope One:推薦模塊
  MovieLens數據集
第4章  內容過濾及分類——基於物品屬性的過濾
  一個簡單的例子
  用Python實現
  給出推薦的原因
  一個取值範圍的問題
  歸一化
  改進的標準分數
  歸一化vs.不歸一化
  回到Pandora
  體育項目的識別
  Python編程
  就是它了
  汽車MPG數據
  雜談
第5章  分類的進一步探討——演算法評估及kNN
  訓練集和測試集
  10折交叉驗證的例子
  混淆矩陣
  一個編程的例子
  Kappa統計量

  近鄰演算法的改進
  一個新數據集及挑戰
  更多數據、更好的演算法以及一輛破公共汽車
第6章  概率及樸素貝葉斯一樸素貝葉斯
  微軟購物車
  貝葉斯定理
  為什麼需要貝葉斯定理
  i1OO i500
  用Python編程實現
  共和黨vs.民主黨
  數字
  Python實現
  這種做法會比近鄰演算法好嗎
第7章  樸素貝葉斯及文本——非結構化文本分類
  一個文本正負傾向性的自動判定系統
  訓練階段
第8章  聚類——群組發現
  k—means聚類
  SSE或散度
  小結
  安然公司