Python數據科學實踐指南( Practical guide of Python data science) Python数据科学实践指南

紀路

  • 出版商: 機械工業
  • 出版日期: 2017-05-24
  • 定價: $354
  • 售價: 8.5$301
  • 語言: 簡體中文
  • 頁數: 241
  • 裝訂: 平裝
  • ISBN: 7111566521
  • ISBN-13: 9787111566526
  • 相關分類: Python程式語言Data Science
  • 立即出貨(限量) (庫存=1)

買這商品的人也買了...

商品描述

本書分為三大部分,其中第1~4章是Python基礎,這個部分會介紹閱讀本書所必須掌握的Python知識。第5~7章是講解Python直接提供的數據處理工具,這些工具包括一些易用的數據結構、標準庫和第三方工具。第8~12章是一些實際的案例,將會涉及Python主要擅長的幾個領域。後的三個附錄分別介紹了關於Python的一些擴展知識。

作者簡介

紀路先進設計與智能計算教育部重點實驗室碩士,控制專業,研究生期間主攻機器人方向,對小眾編程語言和機器學習有濃厚的興趣。現在在一家大數據初創公司做數據挖掘工作,略通Python、Scala、JavaSciipt。

由於有學術背景,並且熟悉多種編程範式,經常被委以算法研發的重任。主要負責計算廣告相關的算法、社交網絡數據挖掘,以及高性能分佈式計算平台的開發工作。

目錄大綱

前言

 

第0章發現、出發
  0.1 何謂數據科學
    0.1.1 海量的數據與科學的方法
    0.1.2 數據科學並不是新概念
    0.1.3 數據科學是一個系統工程
  0.2 如何成為數據科學家
  0.3 為什麼是Python
  0.4 一個簡單的例子
第1章Python介紹
  1.1 Python的版本之爭
  1.2 Python解釋器
    1.2.1 Mac OS X系統
    1.2.2 Linux系統
    1.2.3 Windows系統
  1.3 第一段Python程序
  1.4 使用Python shell調試程序
第2章Python基礎知識
  2.1 應當掌握的基礎知識
    2.1.1 基礎數據類型
    2.1.2 變量和賦值
    2.1.3 操作符及表達式
    2.1.4 文本編輯器
  2.2 字符串
  2.3 獲取鍵盤輸入
  2.4 流程控制
    2.4.1 條件判斷
    2.4.2 循環
    2.4.3 縮進、空白和註釋
第3章函數及異常處理
  3.1 函數和函數的參數
    3.1.1 定義函數
    3.1.2 關鍵字參數和默認參數
    3.1.3 可變數量的參數
    3.1.4 遞歸
  3.2 閉包
  3.3 異常和斷言
第4章高級字符串處理
  4.1 字符集和字符編碼
    4.1.1 ASCII字符集和編碼
    4.1.2 Unicode字符集及UTF-8編碼
  4.2 字符串操作和格式化
    4.2.1 字符串的基本操作
    4.2.2 字符串分割
    4.2.3 字符串格式化
  4.3 正則表達式
    4.3.1 正則表達式入門
    4.3.2 在Python中使用正則表達式
第5章容器和collections
  5.1 元組
  5.2 列表
    5.2.1 引用傳遞
    5.2.2 列表解析式
  5.3 字典
  5.4 collections
    5.4.1 namedtuple
    5.4.2 Counter
    5.4.3 defaultdict
    5.4.4 OrderedDict
第6章Python標準庫簡介
  6.1 math模塊
    6.1.1 常見常量
    6.1.2 無窮
    6.1.3 整數轉換
    6.1.4 絕對值和符號
    6.1.5 常用計算
    6.1.6 指數和對數
  6.2 time
  6.3 random
    6.3.1 隨機數生成器
    6.3.2 取樣
  6.4 glob和fileinput
  6.5 bz2和gzip
  6.6 pprint
  6.7 traceback
  6.8 JSON
第7章用Python讀寫外部數據
  7.1 CSV文件的讀寫
    7.1.1 讀取CSV文件
    7.1.2 創建CSV文件
    7.1.3 處理方言
    7.1.4 將讀取的結果轉換成字典
  7.2 Excel文件的讀寫
    7.2.1 讀取Excel文件
    7.2.2 寫Excel文件
  7.3 MySQL的讀寫
    7.3.1 寫入MySQL
    7.3.2 讀取MySQL
第8章統計編程
  8.1 描述性統計
    8.1.1 人口普查數據
    8.1.2 均值和中位數
    8.1.3 方差和標準差
    8.1.4 分佈
  8.2 數據可視化入門
    8.2.1 pyplot基礎
    8.2.2 柱狀圖和餅圖
  8.3 概率
第9章爬蟲入門
  9.1 網絡資源及爬蟲的基本原理
  9.2 使用request模塊獲取HTML內容
    9.2.1 關於HTTP協議
    9.2.2 使用requests的get方法獲取HTML內容
  9.3 使用Xpath解析HTML中的內容
    9.3.1 HTML的層級和Xpath的基本概念
    9.3.2 使用谷歌瀏覽器快速創建Xpath路徑
    9.3.3 使用谷歌瀏覽器複製需要JS渲染的HTML頁面
  9.4 實戰:爬取京東商品品類及品牌列表
第10章數據科學的第三方庫介紹
  10.1 Numpy入門和實戰
    10.1.1 Numpy基礎
    10.1.2 Numpy基本運算
    10.1.3 Numpy高級特性
    10.1.4 kNN實戰
  10.2 Pandas的入門和實戰
    10.2.1 Pandas基礎
    10.2.2 泰坦尼克號生存率分析實戰
  10.3 Scikit-learn入門和實戰
    10.3.1 機器學習術語
    10.3.2 Scikit-learn基礎
    10.3.2 實戰
第11章利用Python進行圖數據分析
  11.1 圖基礎
  11.2 NetworkX入門
    11.2.1 基本操作
    11.2.2 為圖中的元素添加屬性
    11.2.3 有向圖及節點的度數
    11.2.4 構建圖及圖的操作
  11.3 使用NetworkX進行圖分析
    11.3.1 利用聯通子圖發現社區
    11.3.2 通過三角計算強化社區發現
    11.3.3 利用PageRank發現影響力中心
第12章大數據工具入門
  12.1 Hadoop
    12.1.1 Hadoop的計算原理
    12.1.2 在Hadoop上運行Python程序
  12.2 Spark
    12.2.1 為什麼需要Spark
    12.2.2 如何學習Spark
  12.3 大數據與數據科學的區別

 

附錄A 編寫Python 2與Python 3兼容的代碼
附錄B 安裝完整的Python開發環境
附錄C 常用的Python技巧