蟲術 — Python 絕技 虫术:Python绝技

梁睿坤

立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

本書以大數據應用方面常用的語言Python為基礎,從網絡爬蟲的實現原理入手,逐步引領讀者進入網絡爬蟲的世界。在各類爬蟲框架中,將Scrapy作為軸心,從多個維度揭開爬蟲技術的面紗。例如,爬取規則的制定技巧,設計高速爬蟲,如何讓爬蟲更“聰明”地獲取數據,將海量數據進行分佈式存儲的技術,設計具有高隱匿性的爬蟲,大規模、高並發的分佈式爬蟲技術。

作者簡介

近二十年軟件開發、項目管理、團隊建設和管理經驗。
致力於互聯網技術應用與大數據應用方面的研究與開發工作。
曾任多家軟件公司的高級軟件工程師、項目經理、首席架構師和技術總監等職務。

現任廣州市增增智能科技有限公司 CEO ,從事視覺智能、
語音智能及IoT 等技術的產品研發與企業經營方面的工作。

目錄大綱

第1章爬蟲初步
1.1爬蟲與大數據
1.1.1大數據架構
1.1.2爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網絡爬蟲框架
1.1.5蟲術技術路線圖
1.2實例:簡單的爬蟲
1.3內容分析進階
1.3.1選擇器
1.3.2深入BeautifulSoup 
1.3.3元素的搜尋
1.3.4亂碼與中文編碼
1.4新聞供稿的爬取實例
1.5小結

第2章Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3數據模型Item 
2.4蜘蛛—Spiders 
2.5管道—Item Pipeline 
2.6 Scrapy的運行與配置
2.7新聞供稿爬蟲的Scrapy實現
2.8小結

第3章Scrapy的工程管理
3.1 Scrapyd 
3.2 scrapyd-client及部署
3.3搭建爬蟲服務器

第4章中階蟲術
4.1蜘蛛的演化
4.1.1蜘蛛的本質—深入Spider
4.1.2通用蜘蛛
4.1.3蜘蛛中間件
4.2爬蟲系統的測試與調試
4.2.1開發期調試
4.2.2蜘蛛的測試
4.2.3蜘蛛的運行期調試
4.2.4調試內存溢出
4.3處理HTTP請求
4.3. 1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3表單處理
4.3.4下載器中間件
4.4處理HTTP響應
4.4.1 HTTP響應
4.4.2 Scrapy的響應對象
4.4.3深入選擇器
4.4.4非結構化數據的提取
4.4.5黑夜中的眼睛
4.5處理JavaScript 
4.5.1示例:電商產品爬蟲
4.5.2 Selenium和PhantomJS 
4.5.3 Scrapy與Splash 
4.6數據存儲與後處理
4.6.1圖片的下載與存儲
4.6. 2示例:產品圖片採集
4.6.3導出到數據文件
4.6.4導出到數據庫
4.6.5示例:基於阿里雲的存儲後端

第5章高階蟲術
5.1增量式爬網
5.1.1推演路由
5.1.2時機的重要性
5.1.3去重處理
5.1.4布隆過濾器
5.1.5基於Redis的布隆過濾器
5.2突破封印
5.2.1封禁淺析
5.2.2客戶端仿真
5.2.3化身萬千—蜘蛛世界的易容術
5.2.4反跟踪
5.2.5繞開蜜罐
5.3蟲海
5.3.1分佈式爬蟲架構
5.3.2認識scrapy-redis 
5.3.3示例:分佈式電商爬蟲
5.4可視化爬蟲
5.4.1示例:某點評網爬蟲
5.4.2解讀Portia爬蟲代碼
5.4.3數據項加載器—Item Loaders 
5.4.4最後的工作