機器學習系統設計 (Building Machine Learning Systems with Python) 机器学习系统设计

里徹特 (Willi Richert), 科埃略 (Luis Pedro Coelho)

買這商品的人也買了...

商品描述

<內容簡介>

里徹特、科埃略所著的《機器學習系統設計》是實用的Python機器學習教程,結合大量案例,介紹了機器學習的各方面知識。《機器學習系統設計》不僅告訴你「怎麼做」,還會分析「為什麼」,力求幫助讀者掌握多種多樣的機器學習Python庫,學習構建基於Python的機器學習系統,並親身實踐和體驗機器學習系統的功能。
    《機器學習系統設計》適合需要機器學習技術的Python開發人員、電腦科學研究人員、數據科學家、人工智能程序員,以及統計程序員閱讀參考。

<目錄>

第1章  Python機器學習入門
  1.1  夢之隊:機器學習與Python
  1.2  這本書將教給你什麼(以及不會教什麼)
  1.3  遇到困難的時候怎麼辦
  1.4  開始
    1.4.1  NumPy、SciPy和Matplotlib簡介
    1.4.2  安裝Python
    1.4.3  使用NumPy和SciPy智能高效地處理數據
    1.4.4  學習NumPy
    1.4.5  學習SciPy
  1.5  我們第一個(極小的)機器學習應用
    1.5.1  讀取數據
    1.5.2  預處理和清洗數據
    1.5.3  選擇正確的模型和學習演算法
  1.6  小結
第2章  如何對真實樣本分類
  2.1  Iris數據集
    2.1.1  第一步是可視化
    2.1.2  構建第一個分類模型
  2.2  構建更複雜的分類器
  2.3  更複雜的數據集和更複雜的分類器
    2.3.1  從Seeds數據集中學習
    2.3.2  特徵和特徵工程
    2.3.3  最鄰近分類
  2.4  二分類和多分類
  2.5  小結
第3章  聚類:尋找相關的帖子
  3.1  評估帖子的關聯性
    3.1.1  不應該怎樣
    3.1.2  應該怎樣
  3.2  預處理:用相近的公共詞語個數來衡量相似性
    3.2.1  將原始文本轉化為詞袋
    3.2.2  統計詞語
    3.2.3  詞語頻次向量的歸一化
    3.2.4  刪除不重要的詞語
    3.2.5  詞幹處理
    3.2.6  停用詞興奮劑
    3.2.7  我們的成果和目標
  3.3  聚類
    3.3.1  K均值
    3.3.2  讓測試數據評估我們的想法
    3.3.3  對帖子聚類
  3.4  解決我們最初的難題
  3.5  調整參數
  3.6  小結
第4章  主題模型
  4.1  潛在狄利克雷分配(LDA)
  4.2  在主題空間比較相似度
  4.3  選擇主題個數
  4.4  小結

第5章  分類:檢測劣質答案
  5.1  路線圖概述
  5.2  學習如何區分出優秀的答案
    5.2.1  調整樣本
    5.2.2  調整分類器
  5.3  獲取數據
    5.3.1  將數據消減到可處理的程度
    5.3.2  對屬性進行預選擇和處理
    5.3.3  定義什麼是優質答案
  5.4  創建第一個分類器
    5.4.1  從k鄰近(kNN)演算法開始
    5.4.2  特徵工程
    5.4.3  訓練分類器
    5.4.4  評估分類器的性能
    5.4.5  設計更多的特徵
  5.5  決定怎樣提升效果
    5.5.1  偏差?方差及其折中
    5.5.2  解決高偏差
    5.5.3  解決高方差
    5.5.4  高偏差或低偏差
  5.6  採用邏輯回歸
    5.6.1  一點數學和一個小例子
    5.6.2  在帖子分類問題上應用邏輯回歸
  5.7  觀察正確率的背後:準確率和召回率
  5.8  為分類器瘦身
  5.9  出貨
  5.10  小結
第6章  分類II:情感分析
  6.1  路線圖概述
  6.2  獲取推特(Twitter)數據
  6.3  樸素貝葉斯分類器介紹
    6.3.1  瞭解貝葉斯定理
    6.3.2  樸素
    6.3.3  使用樸素貝葉斯進行分類
    6.3.4  考慮未出現的詞語和其他古怪情況
    6.3.5  考慮算術下溢
  6.4  創建第一個分類器並調優
    6.4.1  先解決一個簡單問題
    6.4.2  使用所有的類
    6.4.3  對分類器的參數進行調優
  6.5  清洗推文
  6.6  將詞語類型考慮進去
    6.6.1  確定詞語的類型
    6.6.2  用SentiWordNet成功地作弊
    6.6.3  我們第一個估算器
    6.6.4  把所有東西融合在一起
  6.7  小結
第7章  回歸:推薦
  7.1  用回歸預測房價
    7.1.1  多維回歸
    7.1.2  回歸里的交叉驗證
  7.2  懲罰式回歸
    7.2.1  L1和L2懲罰
    7.2.2  在Scikit-learn中使用Lasso或彈性網
  7.3  P大於N的情形
    7.3.1  基於文本的例子
    7.3.2  巧妙地設置超參數(hyperparameter)
    7.3.3  評分預測和推薦
  7.4  小結
第8章  回歸:改進的推薦
  8.1  改進的推薦
    8.1.1  使用二值推薦矩陣
    8.1.2  審視電影的近鄰
    8.1.3  組合多種方法
  8.2  購物籃分析
    8.2.1  獲取有用的預測
    8.2.2  分析超市購物籃
    8.2.3  關聯規則挖掘
    8.2.4  更多購物籃分析的高級話題
  8.3  小結
第9章  分類III:音樂體裁分類
  9.1  路線圖概述
  9.2  獲取音樂數據
  9.3  觀察音樂
  9.4  用FFT構建第一個分類器
    9.4.1  增加實驗敏捷性
    9.4.2  訓練分類器
    9.4.3  在多分類問題中用混淆矩陣評估正確率
    9.4.4  另一種方式評估分類器效果:受試者工作特徵曲線(ROC)
  9.5  用梅爾倒頻譜係數(MFCC)提升分類效果
  9.6  小結
第10章  電腦視覺:模式識別
  10.1  圖像處理簡介
  10.2  讀取和顯示圖像
    10.2.1  圖像處理基礎
    10.2.2  加入椒鹽噪聲
    10.2.3  模式識別
    10.2.4  計算圖像特徵
    10.2.5  設計你自己的特徵
  10.3  在更難的數據集上分類
  10.4  局部特徵表示
  10.5  小結
第11章  降維
  11.1  路線圖
  11.2  選擇特徵
    11.2.1  用篩選器檢測冗餘特徵
    11.2.2  用封裝器讓模型選擇特徵
  11.3  其他特徵選擇方法
  11.4  特徵抽取
    11.4.1  主成分分析(PCA)
    11.4.2  PCA的局限性以及LDA會有什麼幫助
  11.5  多維標度法(MDS)
  11.6  小結
第12章  大數據
  12.1  瞭解大數據
  12.2  用Jug程序包把你的處理流程分解成幾個任務
    12.2.1  關於任務
    12.2.2  復用部分結果
    12.2.3  幕後的工作原理
    12.2.4  用Jug分析數據
  12.3  使用亞馬遜Web服務(AWS)
    12.3.1  構建你的第一臺機器
    12.3.2  用starcluster自動創建集群
  12.4  小結
附錄A  更多機器學習知識
  A.1  在線資源
  A.2  參考書
    A.2.1  問答網站
    A.2.2  博客
    A.2.3  數據資源
    A.2.4  競爭日益加劇
  A.3  還剩下什麼
  A.4  小結
索引