Python數據分析入門——從數據獲取到可視化 Python数据分析入门-从数据获取到可视化

沈祥壯

  • 出版商: 電子工業
  • 出版日期: 2018-03-01
  • 定價: $354
  • 售價: 7.9$280
  • 貴賓價: 7.5$266
  • 語言: 簡體中文
  • 頁數: 260
  • 裝訂: 平裝
  • ISBN: 7121336537
  • ISBN-13: 9787121336539
  • 相關分類: Data Science
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書作為數據分析的入門圖書,以Python語言為基礎,介紹了數據分析的整個流程。本書內容涵蓋數據的獲取(即網絡爬蟲程序的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過於高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在於應用Python來完成一些數據分析和數據處理的工作,即如何使用Python來完成工作而非專註於Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以後的深入學習打下基礎。最後,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹了一些實戰的小項目,有趣且難度不大,大家可以在學習前面內容之餘來閱讀這部分內容。

作者簡介

沈祥壯,自學Python兩年,以數據分析為主線,系統學習的數據的採集、處理、分析和可視化。在研究統計機器學習理論的同理,使用Python語言實現了部分統計學習算法。研究方向包括數據採集、數據挖掘、統計機器學習及圖像處理。

目錄大綱

1準備1 
1.1開發環境搭建2 
1.1.1在Ubuntu系統下搭建Python集成開發環境2 
1.1.2在Windows系統下搭建Python集成開發環境13 
1.1.3三種安裝第三方庫的方法16 
1.2 Python基礎語法介紹19 
1.2.1 if__name__=='__main__' 20 
1.2.2列表解析式22 
1.2.3裝飾器23 
1.2.4遞歸函數26 
1.2.5面向對象27 
1.3 The Zen of Python 28 
參考文獻30 

2數據的獲取31 
2.1爬蟲簡介31 
2.2數據抓取實踐33 
2.2.1請求網頁數據33 
2.2.2網頁解析38 
2.2.3數據的存儲46 
2.3爬蟲進階50 
2.3.1異常處理50 
2.3.2 robots.txt 58 
2.3 .3動態UA 60 
2.3.4代理IP 61 
2.3.5編碼檢測61 
2.3.6正則表達式入門63 
2.3.7模擬登錄69 
2.3.8驗證碼問題74
2.3.9動態加載內容的獲取84 
2.3.10多線程與多進程93 
2.4爬蟲總結101 
參考文獻102 

3數據的存取與清洗103 
3.1數據存取103 
3.1.1基本文件操作103 
3.1.2 CSV文件的存取111 
3.1.3 JSON文件的存取116 
3.1.4 XLSX文件的存取121 
3.1.5 MySQL數據庫文件的存取137 
3.2 NumPy 145 
3.2.1 NumPy簡介145 
3.2.2 NumPy基本操作146 
3.3 pandas 158 
3.3.1 pandas簡介158 
3.3.2 Series與DataFrame的使用159 
3.3.3布爾值數組與函數應用169 
3.4數據的清洗174 
3.4.1編碼問題174 
3.4.2缺失值的檢測與處理175 
3.4.3去除異常值181 
3.4.4去除重複值與冗餘信息183 
3.4.5注意事項185 
參考文獻187 

4數據的分析及可視化188 
4.1探索性數據分析189 
4.1.1基本流程189 
4.1.2數據降維197
4.2機器學習入門199 
4.2.1機器學習簡介200 
4.2.2決策樹——機器學習算法的應用202 
4.3手動實現KNN算法205 
4.3.1特例——最鄰近分類器205 
4.3.2 KNN算法的完整實現213 
4.4數據可視化215 
4.4.1高質量作圖工具——matplotlib 215 
4.4.2快速作圖工具——pandas與matplotlib 223 
4.4.3簡捷作圖工具——seaborn與matplotlib 226 
4.4.4詞云圖230 
參考文獻232 

5 Python與生活234 
5.1定制一個新聞提醒服務234 
5.1.1新聞數據的抓取235 
5.1.2實現郵件發送功能237 
5.1.3定時執行及本地日誌記錄239 
5.2 Python與數學241 
5.2.1估計π值242 
5.2.2三門問題245 
5.2.3解決LP與QP問題(選讀) 247 
5.3 QQ群聊天記錄數據分析251 
參考文獻256