Python數據預處理技術與實踐

Name: Python數據預處理技術與實踐
Price: 207 TWD
Availability: InStock
Author: 白寧超、唐聃、文俊
ISBN: 7302539715

白寧超、唐聃、文俊

預覽內頁

出版商: 清華大學
出版日期: 2019-12-01
定價: $414
售價: 5.0 折 $207
語言: 簡體中文
ISBN: 7302539715
ISBN-13: 9787302539711
相關分類: Python、Python

立即出貨

買這商品的人也買了...

$294

機器學習系統設計 (Building Machine Learning Systems with Python)
~~$359~~ $341

圖解機器學習
$402

AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)
$254

亞馬遜 AWS 雲基礎與實戰
~~$474~~ $450

RabbitMQ 實戰指南
$351

關聯數據:萬維網上的結構化數據
$141

機器學習基礎
$300

scikit-learn 機器學習, 2/e (Mastering Machine Learning with scikit-learn, 2/e)
~~$480~~ $379

Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)
$264

在線文本數據挖掘算法原理與編程實現
$504

自然語言處理入門
$601

知識圖譜：概念與技術
$1,188

SEO 藝術, 3/e (The Art of SEO: Mastering Search Engine Optimization, 3/e)
$179

Python基礎與大數據應用
$534

大數據智能：數據驅動的自然語言處理技術
$402

自己動手做推薦引擎
~~$650~~ $507

機器學習工程師面試全破解：嚴選 124道 AI 演算法決勝題完整剖析
~~$580~~ $458

機器學習的數學基礎 : AI、深度學習打底必讀
$267

Python 自然語言處理與開發
~~$600~~ $468

Windows 駭客程式設計：駭客攻防及惡意程式研發 (基礎修行篇)
~~$1,000~~ $850

tf.keras 技術者們必讀！深度學習攻略手冊
~~$999~~ $899

FLAG'S 創客‧自造者工作坊 -- Python 感測器大應用 - 智慧生活X雲端
~~$580~~ $493

深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)
~~$780~~ $616

站穩 AI 大師的第一步：最直覺機器學習
~~$600~~ $468

WebSecurity 網站滲透測試：Burp Suite 完全學習指南（iT邦幫忙鐵人賽系列書）

商品描述

本書基礎理論和工程應用相結合，循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例，包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識，書中針對每個知識點，都給出了豐富的教學實例和實現代碼，最後，通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用，示例代碼很豐富，適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

目錄大綱

第1章概述   1
1.1Python數據預處理   1
1.1.1什麼是數據預處理   1
1.1.2為什麼要做數據預處理   2
1.1.3數據預處理的工作流程   2
1.1.4數據預處理的應用場景   3
1.2開發工具與環境   3
1.2.1Anaconda介紹與安裝   3
1.2.2SublimeText   7
1.3實戰案例：第一個中文分詞程序   12
1.3.1中文分詞   12
1.3.2實例介紹   14
1.3.3結巴實現中文分詞   14
1.4本章小結   15
第2章Python科學計算工具   16
2.1NumPy   16
2.1.1NumPy的安裝和特點   16
2.1.2NumPy數組   18
2.1.3Numpy的數學函數   20
2.1.4NumPy線性代數運算   22
2.1.5NumPyIO操作   22
2.2SciPy   23
2.2.1SciPy的安裝和特點   23
2.2.2SciPyLinalg   25
2.2.3SciPy文件操作   27
2.2.4SciPy插值   28
2.2.5SciPyNdimage   30
2.2.6SciPy優化算法   33
2.3Pandas   35
2.3.1Pandas的安裝和特點   36
2.3.2Pandas的數據結構   36
2.3.3Pandas的數據統計   39
2.3.4Pandas處理丟失值   41
2.3.5Pandas處理稀疏數據   45
2.3.6Pandas的文件操作   46
2.3.7Pandas可視化   48
2.4本章小結   54
第3章數據採集與存儲   55
3.1數據與數據採集   55
3.2數據類型與採集方法   56
3.2.1結構化數據   56
3.2.2半結構化數據   56
3.2.3非結構化數據   57
3.3網絡爬蟲技術   57
3.3.1前置條件   58
3.3.2Scrapy技術原理   58
3.3.3Scrapy新建爬蟲項目   59
3.3.4爬取網站內容   61
3.4爬取數據以JSON格式進行存儲   69
3.5爬取數據的MySQL存儲   71
3.5.1MySQL與Navicat部署   71
3.5.2MySQL存儲爬蟲數據   72
3.6網絡爬蟲技術擴展   75
3.7本章小結   76
第4章文本信息抽取   77
4.1文本抽取概述   77
4.2文本抽取問題   78
4.3Pywin32抽取文本信息   79
4.3.1Pywin32介紹   79
4.3.2抽取Word文檔文本信息   80
4.3.3抽取PDF文檔文本信息   83
4.3.4打造靈活的文本抽取工具   84
4.4文本批量編碼   86
4.5實戰案例：遍歷文件批量抽取新聞文本內容   86
4.5.1遞歸讀取文件   87
4.5.2遍歷抽取新聞文本   88
4.6本章小結   91
第5章文本數據清洗   92
5.1新聞語料的準備   92
5.2高效讀取文件   93
5.2.1遞歸遍歷讀取新聞   94
5.2.2yield生成器   95
5.2.3高效遍歷讀取新聞   97
5.3通過正則表達式來清洗文本數據   98
5.3.1正則表達式   98
5.3.2清洗文本數據   100
5.4清洗HTML網頁數據   102
5.5簡繁字體轉換   104
5.6實戰案例：批量新聞文本數據清洗   106
5.6.1高效讀取文件內容   106
5.6.2抽樣處理文件   107
5.6.3通過正則表達式批量清洗文件   108
5.7本章小結   109
第6章中文分詞技術   110
6.1中文分詞簡介   110
6.1.1中文分詞概述   110
6.1.2常見中文分詞方法   111
6.2結巴分詞精講   112
6.2.1結巴分詞的特點   112
6.2.2結巴分詞的安裝   112
6.2.3結巴分詞核心方法   112
6.2.4結巴中文分詞的基本操作   113
6.2.5自定義分詞詞典   114
6.2.6關鍵詞提取   115
6.2.7詞性標註   116
6.3HanLP分詞精講   117
6.3.1JPype1的安裝   117
6.3.2調用HanLP的Java包   117
6.3.3HanLP分詞   118
6.3.4HanLP實現自定義分詞   120
6.3.5命名實體識別與詞性標註   120
6.3.6HanLP實現關鍵詞抽取   121
6.3.7HanLP實現自動摘要   121
6.4自定義去除停用詞   122
6.4.1以正則表達式對文本信息進行清洗   122
6.4.2結巴中文分詞詞性解讀   124
6.4.3根據詞性規則構建自定義停用詞   126
6.5詞頻統計   126
6.5.1NLTK介紹與安裝   126
6.5.2統計新聞文本詞頻   128
6.5.3統計特定詞頻和次數   129
6.5.4特徵詞的頻率分佈表   129
6.5.5頻率分佈圖與頻率累計分佈圖   130
6.5.6基於Counter的詞頻統計   131
6.6自定義去高低詞頻   132
6.7自定義規則提取特徵詞   133
6.8實戰案例：新聞文本分詞處理   134
6.9本章小結   135
第7章文本特徵向量化   136
7.1解析數據文件   136
7.2處理缺失值   138
7.2.1什麼是數據缺失值   138
7.2.2均值法處理數據缺失值   139
7.2.3Pandas處理缺失值   141
7.3數據的歸一化處理   143
7.3.1不均衡數據分析   143
7.3.2歸一化的原理   144
7.3.3歸一化的優點   145
7.4特徵詞轉文本向量   146
7.5詞頻-逆詞頻（TF-IDF）   147
7.6詞集模型與詞袋模型   148
7.7實戰案例：新聞文本特徵向量化   153
7.8本章小結   154
第8章Gensim文本向量化   155
8.1Gensim的特性和核心概念   155
8.2Gensim構建語料詞典   156
8.3Gensim統計詞頻特徵   158
8.4Gensim計算TF-IDF   158
8.5Gensim實現主題模型   160
8.5.1主題模型   160
8.5.2潛在語義分析（LSA）   161
8.5.3隱含狄利克雷分佈（LDA）   164
8.5.4LDA的模型實現   166
8.5.5隨機映射（RP）   167
8.6實戰

Python數據預處理技術與實踐

白寧超、唐聃、文俊

買這商品的人也買了...

相關主題

商品描述

目錄大綱

類似商品