Python 3.x 網絡爬蟲從零基礎到項目實戰

史衛亞

買這商品的人也買了...

商品描述

本書通過精選案例引導讀者係統學習,系統完整地介紹了網絡爬蟲的開發知識和技巧。 

本書主要基於Python 3.7開發網絡爬蟲,主要內容包括認識爬蟲、
爬蟲需要具備的基礎知識、數據提取的方式、如何提高爬蟲的效率、
數據的存儲、動態頁面的爬取、機器識別、模擬登陸、
設置代理IP、Scrapy爬蟲框架和分佈式爬蟲等知識點。
為了讓讀者更好的掌握這些技術和更多的了解爬蟲的功能,本書後提供了九個實戰項目,
通過大量案例操作,來讓讀者提高爬蟲的反爬和數據提取等爬蟲技術實戰的能力。 

本書不僅適合零基礎或有部分編碼能力並對爬蟲技術有興趣的讀者,
而且適合準備從事或學習數據科學與人工智能相關行業的讀者。

作者簡介

史衛亞

博士,副教授,IEEE會員,CCF會員,INNS會員。
2009年獲得複旦大學計算機應用專業博士學位。
2015—2016年在美國北卡羅來納大學做訪問學者,對機器學習、
大數據檢索、數據庫、圖像和視頻處理、人工智能和模式識別等有深入研究。

目錄大綱

目錄
第1章爬蟲基礎1
1.1認識爬蟲2
1.2 Python環境4
1.3 Python語法11
1.4網頁結構62
1.5 HTTP協議68
1.6本章小結84
1.7實戰練習84

第2章開始爬蟲85
2.1 urllib模塊86
2.2 requests模塊88
2.3 re模塊110
2.4項目案例:爬百度貼吧122
2.5本章小結128
2.6實戰練習128

第3章更多數據提取的方式129
3.1 XPath和LXml 130
3.2 BeautifulSoup4 137
3.3 JsonPath 143
3.4性能和選擇148
3.5項目案例:爬騰訊招聘網148
3.6本章小結154
3.7實戰練習154

第4章並發155
4.1 100萬個網頁156
4.2進程161
4.3線程181
4.4鎖191
4.5協程202
4.6線程、進程、協程對比206
4.7並發爬蟲207
4.8本章小結216
4.9實戰練習216

第5章數據存儲217
5.1文件存儲218
5.2關係型數據庫存儲221
5.3非關係型數據庫存儲231
5.4項目案例:爬豆瓣電影266
5.5本章小結270
5.6實戰練習270

第6章Ajax數據爬取271
6.1 Ajax的概念272
6.2實現Ajax 272
6.3項目案例:爬鬥魚直播282
6.4本章小結286
6.5實戰練習286

第7章動態渲染頁面爬取287
7.1 Selenium 288
7.2項目案例:爬京東商品306
7.3本章小結311
7.4實戰練習312

第8章圖形驗證碼識別313
8.1使用pytesseract 314
8.2使用打碼平台317
8.3項目案例:識別驗證碼完成登錄323
8.4本章小結326
8.5實戰練習326

第9章模擬登錄327
9.1 Cookie 328
9.2 Session 330
9.3 Cookie池的搭建332
9.4項目案例:登錄GitHub 335
9.5本章小結340
9.6實戰練習340

第10章代理IP的使用341
10.1代理IP 342
10.2代理IP池348
10.3付費代理的使用351
10.4項目案例:使用代理IP爬微信公眾號358
10.5本章小結368
10.6實戰練習368

第11章Scrapy框架369
11.1認識Scrapy 370
11.2編寫Scrapy的第一個案例373
11.3 Spider詳情384
11.4操作數據403
11.5模擬登錄432
11.6中間件446
11.7分佈式458
11.8項目案例:爬新浪新聞500
11.9本章小結510
11.10實戰練習510

第12章項目案例:爬校花網信息511
12.1分析網站512
12.2開始爬取515

第13章項目案例:爬北京地區短租房信息523
13.1分析網站524
13.2開始爬取525

第14章項目案例:爬簡書專題信息531
14.1分析網站532
14.2開始爬取535

第15章項目案例:爬QQ音樂歌曲539
15.1分析網站540
15.2開始爬取542

第16章項目案例:爬百度翻譯545
16.1分析網站546
16.2開始爬取550

第17章項目案例:爬百度地圖API 555
17.1分析網站556
17.2開始爬取560

第18章項目案例:爬360圖片571
18.1分析網站572
18.2開始爬取573

第19章項目案例:爬噹噹網577
19.1分析網站578
19.2開始爬取580

第20章項目案例:爬唯品會585
20.1分析網站586
20.2開始爬取589

第21章項目案例:爬智聯招聘593
21.1分析網站594
21.2開始爬取597