利用Python學習數據分析

山內長承

  • 出版商: 中國水利水電出版社
  • 售價: $420
  • 語言: 簡體中文
  • 頁數: 268
  • ISBN: 7522617251
  • ISBN-13: 9787522617251
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

《利用Python學習數據分析》用通俗易懂的文字結合大量代碼,詳細介紹了用Python進行數據分析的基本方法和技巧。全書共7章,具體內容包括數據分析的基礎知識,Python與數據分析程序庫,使用統計分析方法進行多維變量分析——相關分析/關聯分析/回歸分析/主成分分析/因子分析,使用機器學習算法進行多維變量分析——聚類分析/k-近鄰算法/決策樹/支持向量機,關聯分析,時間序列數據分析和網絡分析等。讀者可以一邊學習Python編程的基礎,一邊掌握數據分析的實踐技術。 《利用Python學習數據分析》內容豐富,實踐性強,適合大中專院校財務、人工智能、數據科學等相關專業學生學習,也適合作為讀者學習數據分析技術的參考用書。

作者簡介

山內長承,1975年畢業於東京大學工學部電子工學專業。1977年完成工學專業課程碩士課程。1978年進入斯坦福大學電氣工學專業,1984年退出博士課程,進入日本艾比·艾姆東京基礎研究所工作。2000年加入到東邦大學理學部情報科學科,任東邦大學理學部情報科學科教授。

目錄大綱

第1章 數據分析的基礎知識
1.1 數據分析簡介
1.2 變量與數據類型
1.3 分析方法概述
第2章 Python與數據分析程序庫
2.1 Python簡介
2.1.1 為什麼使用Python
2.1.2 Python與其他編程語言的區別
2.2 運行環境與JupyterNotebook
2.2.1 下載和安裝
2.2.2 使用JupyterNotebook
2.2.3 保存文件以及退出JupyterNotebook環境
2.3 數據分析程序庫NumPy、pandas與機器學習庫scikit-learn
2.3.1 NumPy
2.3.2 pandas
2.3.3 scikit-learn
2.4 可視化繪圖程序庫Matplotlib
2.4.1 繪圖
代碼2-1 繪制冰激淩消費支出與氣溫之間的關系圖(1)
代碼2-2 繪制冰激淩消費支出與氣溫之間的關系圖(2)
2.4.2 用繪圖方式表示兩個變量之間的關系
代碼2-3 繪制冰激淩消費支出與氣溫之間的關系圖(3)
代碼2-4 繪制冰激淩消費支出與氣溫之間的關系圖(4)
2.5 數據訪問
2.5.1 CSV文件的讀寫方法
2.5.2 用SQL讀寫數據庫數據
代碼2-5 通過MySQL讀取數據
代碼2-6 通過MySQL插入數據
代碼2-7 在pandas中進行數據處理
代碼2-8 在數據庫中用SQL進行數據處理
2.6 處理缺失數據
2.6.1 缺失數據的表示方法
2.6.2 檢測缺失值
2.6.3 刪除和置換缺失值
第3章 使用統計分析方法進行多維度變量分析——相關分析/關聯分析/回歸分析/主成分分析/因子分析
3.1 相關分析與回歸分析
3.1.1 相關分析
案例3-1 2016年平均氣溫與每個家庭的冰激淩月消費支出金額
代碼3-1 冰激淩月消費支出與平均氣溫之間的相關系數
3.1.2 回歸分析
代碼3-2 計算冰激淩消費支出與氣溫之間的回歸方程式(使用Scipy模塊中的stats.linregress函數)
代碼3-3 計算冰激淩消費支出與氣溫之間的回歸方程式(使用scikit-learn的linear_model模塊)
代碼3-4 根據冰激淩消費支出和氣溫數據計算回歸方程式(使用StatsModels的api.OLS模塊)
3.1.3 多元回歸分析
案例3-2 對波士頓房價進行多元回歸分析
代碼3-5 使用scikit-learn的linear_model模塊進行多元回歸分析(波士頓房價)
3.2 分類數據的關聯分析
3.2.1 φ系數
代碼3-6 使用奈坦尼克號乘客數據計算異變量之間的相關性
代碼3-7 對蘋果和橘子的喜好程度的相關性
3.2.2 古德-克魯斯卡爾γ系數和肯德爾τ系數
代碼3-8 計算肯德爾τ系數
代碼3-9 根據列表中每個單元格的值計算肯德爾τ系數
代碼3-10 使用scipy.stats.kendalltau計算肯德爾τ系數
3.2.3 χ2檢驗與克萊姆相關系數V
3.2.4 斯皮爾曼等級相關系數
代碼3-11 計算斯皮爾曼等級相關系數
3.3 主成分分析
案例3-3 費希爾的鳶尾花數據主成分分析
代碼3-12 根據費希爾的鳶尾花數據繪制花瓣長度和寬度的散點圖
代碼3-13 費希爾的鳶尾花數據集的主成分分析
代碼3-14 對費希爾鳶尾花數據集繪制雙標圖
案例3-4 考試成績的主成分分析
代碼3-15 考試成績的主成分分析
代碼3-16 考試成績的主成分分析以及繪制雙標圖
3.4 因子分析
3.4.1 因子分析的基本思路
3.4.2 使用Python進行因子分析
代碼3-17 關於5個科目考試成績的因子分析
代碼3-18 使用雙標圖表示波士頓房價數據的因子分析
3.5 對應分析
代碼3-19 使用mca程序庫進行對應分析
第4章 使用機器學習算法進行多維度變量分析——聚類分析/k-近鄰算法/決策樹/支持向量機
4.1 聚類算法的基本思路
4.2 分層聚類
代碼4-1 使用Scipy庫進行分層聚類
代碼4-2 對費希爾鳶尾花數據集進行分層聚類
4.3 使用k-均值算法進行非分層聚類
代碼4-3 使用k-均值算法對費希爾鳶尾花數據集的花瓣長度和寬度進行聚類分析
4.4 使用EM算法估計高斯混合分布
4.4.1 估計高斯混合分布
4.4.2 使用Python進行高斯混合分布估計
代碼4-4 生成高斯混合分布並進行聚類分析(1)
代碼4-5 生成高斯混合分布並進行聚類分析(2)
4.5 k-近鄰算法
4.5.1 k-近鄰算法的基本思路
4.5.2 使用Python實現k-近鄰算法
代碼4-6 從費希爾鳶尾花數據集中抽取15條作為訓練數據計算k-近鄰算法
4.6 決策樹算法
代碼4-7 將學生考試成績生成決策樹
代碼4-8 基於費希爾鳶尾花數據集生成決策樹
4.7 支持向量機
代碼4-9 使用SVM類對費希爾鳶尾花數據集(花瓣長度和寬度)進行分類
第5章 關聯分析
5.1 關聯分析詳解
5.1.1 關聯規則與分析指標
5.1.2 Apriori算法
5.2 使用Python進行關聯分析
5.2.1 程序庫mlxtend
代碼5-1 使用mlxtend進

類似商品