Pandas 數據分析實戰 Pandas in Action

Boris Paskhaver 殷海英 譯

  • 出版商: 清華大學
  • 出版日期: 2022-08-01
  • 定價: $768
  • 售價: 8.5$653
  • 語言: 簡體中文
  • ISBN: 7302612714
  • ISBN-13: 9787302612711
  • 相關分類: Data Science
  • 此書翻譯自: Pandas in Action
  • 立即出貨

  • Pandas 數據分析實戰-preview-1
  • Pandas 數據分析實戰-preview-2
  • Pandas 數據分析實戰-preview-3
Pandas 數據分析實戰-preview-1

買這商品的人也買了...

商品描述

主要內容 ●對數據集進行組織、 分組、合並、分割以及連接 ●發現基於文本和時間的數據的趨勢 ●對數據進行排序、過濾、樞軸化、優化,並得出結論 ●應用聚合操作

目錄大綱

目    錄

 

 

 

 

第Ⅰ部分   Pandas核心基礎

第1章  Pandas概述 2

1.1  21世紀的數據 2

1.2  Pandas介紹 3

1.2.1  Pandas與圖形電子表格應用程序 4

1.2.2  Pandas與它的競爭對手 5

1.3  Pandas之旅 6

1.3.1  導入數據集 6

1.3.2  操作DataFrame 8

1.3.3  計算Series中的值 11

1.3.4  根據一個或多個條件篩選列 12

1.3.5  對數據分組 14

1.4  本章小結 17

第2章  Series對象 18

2.1  Series概述 18

2.1.1  類和實例 19

2.1.2  用值填充Series對象 19

2.1.3  自定義Series索引 21

2.1.4  創建有缺失值的Series 24

2.2  基於其他Python對象創建Series 24

2.3  Series屬性 26

2.4  檢索第一行和最後一行 28

2.5  數學運算 30

2.5.1  統計操作 30

2.5.2  算術運算 36

2.5.3  廣播 38

2.6  將Series傳遞給Python的

內置函數 40

2.7  代碼挑戰 42

2.7.1  問題描述 42

2.7.2  解決方案 42

2.8  本章小結 44

第3章  Series方法 46

3.1  使用read_csv函數導入數據集 46

3.2  對Series進行排序 51

3.2.1  使用sort_values方法按值排序 51

3.2.2  使用sort_index方法按索引

排序 53

3.2.3  使用nsmallest和nlargest方法

檢索最小值和最大值 55

3.3  使用inplace參數替換原有Series 56

3.4  使用value_counts方法計算值的

個數 57

3.5  使用apply方法對每個Series值

調用一個函數 62

3.6  代碼挑戰 65

3.6.1  問題描述 65

3.6.2  解決方案 65

3.7  本章小結 67

第4章  DataFrame對象 68

4.1  DataFrame概述 69

4.1.1  通過字典創建DataFrame 69

4.1.2  通過NumPy ndarray創建

DataFrame 70

4.2  Series和DataFrame的相似之處 72

4.2.1  使用read_csv函數導入

DataFrame 72

4.2.2  Series和DataFrame的共享與

專有屬性 73

4.2.3  Series和DataFrame的共有方法 75

4.3  對DataFrame進行排序 78

4.3.1  按照單列進行排序 78

4.3.2  按照多列進行排序 80

4.4  按照索引進行排序 81

4.4.1  按照行索引進行排序 82

4.4.2  按照列索引進行排序 82

4.5  設置新的索引 83

4.6  從DataFrame中選擇列 84

4.6.1  從DataFrame中選擇單列 84

4.6.2  從DataFrame中選擇多列 85

4.7  從DataFrame中選擇行 86

4.7.1  使用索引標簽提取行 87

4.7.2  按索引位置提取行 89

4.7.3  從特定列中提取值 90

4.8  從Series中提取值 93

4.9  對行或列進行重命名 93

4.10  重置索引 94

4.11  代碼挑戰 96

4.11.1  問題描述 96

4.11.2  解決方案 96

4.12  本章小結 99

第5章  對DataFrame進行過濾 100

5.1  優化數據集以提高內存

使用效率 100

5.2  按單個條件過濾 106

5.3  按多個條件過濾 109

5.3.1  AND條件 109

5.3.2  OR條件 110

5.3.3  ~條件 111

5.3.4  布爾型方法 112

5.4  按條件過濾 112

5.4.1  isin方法 113

5.4.2  between方法 113

5.4.3  isnull和notnull方法 115

5.4.4  處理空值 117

5.5  處理重復值 119

5.5.1  duplicated方法 119

5.5.2  drop_duplicates方法 121

5.6  代碼挑戰 123

5.6.1  問題描述 123

5.6.2  解決方案 124

5.7  本章小結 127

第Ⅱ部分  應用Pandas

第6章  處理文本數據 130

6.1  字母的大小寫和空格 130

6.2  字符串切片 134

6.3  字符串切片和字符替換 135

6.4  布爾型方法 137

6.5  拆分字符串 139

6.6  代碼挑戰 143

6.6.1  問題描述 143

6.6.2  解決方案 143

6.7  關於正則表達式的說明 145

6.8  本章小結 146

第7章  多級索引DataFrame 147

7.1  MultiIndex對象 148

7.2  MultiIndex DataFrame 151

7.3  對MultiIndex進行排序 156

7.4  通過MultiIndex提取列或行 159

7.4.1  提取一列或多列 160

7.4.2  使用loc提取一行或多行 162

7.4.3  使用iloc提取一行或多行 166

7.5  交叉選擇 168

7.6  索引操作 169

7.6.1  重置索引 169

7.6.2  設置索引 172

7.7  代碼挑戰 174

7.7.1  問題描述 174

7.7.2  解決方案 175

7.8  本章小結 177

第8章  數據集的重塑和透視 178

8.1  寬數據和窄數據 178

8.2  由DataFrame創建數據透視表 180

8.2.1  pivot_table方法 180

8.2.2  數據透視表的其他選項 184

8.3  對索引級別進行堆疊和取消

堆疊 186

8.4  融合數據集 188

8.5  展開值列表 191

8.6  代碼挑戰 193

8.6.1  問題描述 193

8.6.2  解決方案 194

8.7  本章小結 197

第9章  GroupBy對象 198

9.1  從頭開始創建GroupBy對象 198

9.2  從數據集中創建GroupBy對象 200

9.3  GroupBy對象的屬性和方法 202

9.4  聚合操作 206

9.5  將自定義操作應用於所有組 209

9.6  按多列分組 210

9.7  代碼挑戰 211

9.7.1  問題描述 211

9.7.2  解決方案 212

9.8  本章小結 214

第10章  合並與連接 215

10.1  本章使用的數據集 216

10.2  連接數據集 218

10.3  連接後的DataFrame中的

缺失值 220

10.4  左連接 222

10.5  內連接 223

10.6  外連接 225

10.7  合並索引標簽 228

10.8  代碼挑戰 229

10.8.1  問題描述 231

10.8.2  解決方案 231

10.9  本章小結 233

第11章  處理日期和時間 235

11.1  引入Timestamp對象 235

11.1.1  Python如何處理日期時間型

數據 235

 

11.1.2  Pandas 如何處理日期時間型

數據 238

11.2  在DatetimeIndex中存儲多個

時間戳 240

11.3  將列或索引值轉換為日期

時間類型數據 242

11.4  使用DatetimeProperties對象 243

11.5  使用持續時間進行加減 247

11.6  日期偏移 249

11.7  Timedelta對象 251

11.8  代碼挑戰 255

11.8.1  問題描述 256

11.8.2  解決方案 257

11.9  本章小結 260

第12章  導入和導出 261

12.1  讀取和寫入JSON文件 262

12.1.1  將JSON文件加載到

DataFrame中 263

12.1.2  將DataFrame導出到

JSON文件 269

12.2  讀取和寫入CSV文件 270

12.3  讀取和寫入Excel工作簿 272

12.3.1  在Anaconda環境中安裝

xlrd和openpyxl庫 272

12.3.2  導入Excel工作簿 272

12.3.3  導出Excel工作簿 275

12.4  代碼挑戰 277

12.4.1  問題描述 278

12.4.2  解決方案 278

12.5  本章小結 279

第13章  配置Pandas 280

13.1  獲取和設置Pandas選項 280

13.2  精度 284

13.3  列的最大寬度 285

13.4  截斷閾值 286

13.5  上下文選項 286

13.6  本章小結 287

第14章  可視化 289

14.1  安裝Matplotlib 289

14.2  折線圖 290

14.3  條形圖 294

14.4  餅圖 296

14.5  本章小結 297

 

附錄A  安裝及配置 298

附錄B  Python速成課程 314

附錄C  NumPy速成教程 346

附錄D  用Faker生成模擬數據 353

附錄E  正則表達式 359