偏不讓你抓:最強 Python 爬蟲 vs 反爬蟲大戰實錄
韋世東
- 出版商: 深智
- 出版日期: 2020-06-19
- 定價: $780
- 售價: 7.9 折 $616
- 語言: 繁體中文
- 頁數: 480
- 裝訂: 平裝
- ISBN: 9865501384
- ISBN-13: 9789865501389
-
相關分類:
Python、程式語言、Web-crawler 網路爬蟲
已絕版
買這商品的人也買了...
-
流暢的 Python|清晰、簡潔、有效的程式設計 (Fluent Python)$980$774 -
自動化測試 + 網路爬蟲:至尊王者 Selenium 3$650$514 -
Python 網路爬蟲:大數據擷取、清洗、儲存與分析 -- 王者歸來$650$514 -
$454Python 3 反爬蟲原理與繞過實戰 -
不會 C 也是資安高手:用 Python 和駭客大戰三百回合, 2/e$680$537 -
強化學習(RL):使用 PyTorch 徹底精通 (有些許瑕疵,不影響閱讀)$780$616 -
一本書精通 Python:爬蟲遊戲 AI 完全制霸(書況差限門市銷售)$760$532 -
矽谷工程師爬蟲手冊:用 Python 成為進階高手$890$703 -
Python 神乎其技 全新超譯版 - 快速精通 Python 進階功能, 寫出 Pythonic 的程式 (Python Tricks: A Buffet of Awesome Python Features)$580$493 -
行動裝置上的 AI:使用 TensorFlow on iOS Android 及樹莓派$680$537 -
東京大學資料科學家養成全書:使用 Python 動手學習資料分析$780$663 -
精通 Python|運用簡單的套件進行現代運算, 2/e (Introducing Python: Modern Computing in Simple Packages, 2/e)$880$695 -
Android TDD 測試驅動開發:從 UnitTest、TDD 到 DevOps 實踐 (iT邦幫忙鐵人賽系列書)$550$429 -
你也能做出 Google:用 Elasticsearch 搭建叢集搜索引擎$780$616 -
前端三雄首強:用 Angular 高速聰明開發多介面$680$537 -
現在學正是時候:用 Docker + Kubernetes 建立永續叢集服務$780$616 -
最親切的 Git 入門教室$480$379 -
最親切的 Google Analytics 入門教室$580$493 -
Spring Boot 情境式網站開發指南|使用 Spring Data JPA、Spring Security、Spring Web Flow$580$493 -
網頁應用程式設計|使用 Node 和 Express, 2/e (Web Development with Node and Express, 2/e)$580$458 -
決心打底!Python 深度學習基礎養成$690$587 -
社群網站資料探勘|看數字說故事、不用拔草也能測風向 (Mining Social Media : Finding Stories in Internet Data)$420$357 -
Python 資料可視化之美:極專業圖表製作高手書 (書況差限門市銷售)$780$546 -
使用 Python 搜刮網路資料的 12堂實習課$520$406 -
Python for DevOps|學習精準有效的自動化 (Python for Devops: Learn Ruthlessly Effective Automation)$780$616
相關主題
商品描述
本書特色
◎ 系統說明爬蟲和反爬蟲技術
◎ 爬蟲工程師不可錯過的武功秘笈
◎ 幫你從0到1理清爬蟲與反爬蟲的紅藍對抗
內容簡介
本書重點
爬蟲大戰,爾虞我詐,利用熟練的Python3瀏覽器知識,加上人工智慧
的幫助,讓百度、微軟、Google都沒辦法從你的網站爬走一點點資料!
資訊型反爬蟲、動態繪製反爬蟲、文字混淆反爬蟲、特徵識別反爬蟲、app反爬蟲、程式混淆反爬蟲、驗證碼反爬蟲,再強大的爬蟲機器人也就地當機!
本書主要內容
本書共10 章,首先對各種反爬蟲技術進行合理的歸類,然後透過剖析多個案例幫助讀者了解各種反爬蟲技術的原理。內容包含但不限於Cookie反爬蟲、WebSocket反爬蟲、字型反爬蟲、WebDriver反爬蟲、App反爬蟲、驗證碼反爬蟲,幾乎涵蓋市面上所有的反爬蟲技術類型,內容十分詳盡。另外,還針對各種反爬蟲列出對應的繞過和破解方案。
從開發環境設定到原理,再到實際的反爬蟲案例剖析,內容循序漸進。建議讀者按照章節順序閱讀,並在閱讀過程中親自動手練習。
內容如下:
►第1 章 介紹本書所相關的大部分開發環境設定,需要時查閱即可。
►第2 章 介紹Web 網站的組成和頁面繪製。了解伺服器端、用戶端的組成,工作形式和通訊協定。
►第3 章 簡單說明動態網頁和靜態網頁對爬蟲造成的影響,並對反爬蟲概念進行介紹和約定。
►第4 章 以資訊驗證型反爬蟲為主線,說明基於HTTP 協定和WebSocket 協定對用戶端請求進行驗證的反爬蟲原理和具體實作方法,並以爬蟲工程師的角度示範繞過過程。
►第5 章 介紹常見的動態繪製反爬蟲,透過場景假設的方式來說明不同需求的應對方法。
►第6 章 介紹目前被廣泛使用的文字混淆反爬蟲知識,包含圖片偽裝、CSS 偏移、SVG 對映和字型反爬蟲等。以爬蟲工程師的角度示範繞過過程,再剖析其原理。最後討論文字混淆反爬蟲的通用解決方法。
►第7 章 介紹特徵識別反爬蟲,包含繞過過程和實現原理。特徵識別反爬蟲具有一定的隱蔽性。它在爬蟲程式發起時識別和過濾,能有效地減輕伺服器的壓力。
►第8 章 介紹App資料爬取的關鍵和常用的反爬蟲方法,包含程式混淆、參數加密和安全強化等,同時還介紹封包截取和App逆向方面的知識。
►第9 章 驗證碼相關的內容,包含市面上常見的驗證碼類型,每個驗證碼案例均以爬蟲工程師的角度示範繞過過程,再以開發者的角度示範驗證碼的實現過程。部分驗證碼的繞過用到了深度學習中的卷積神經網路和用於目標檢測的YOLO 演算法,並對商用驗證碼廠商的產品進行基本介紹和難度分析。
►第10 章 綜合知識的介紹。如常見的編碼和加密原理,並以對應的RFC 文件為基礎,說明編碼、解碼、加密和解密的過程。然後介紹常見的JavaScript 程式混淆知識,並動手實現一個簡單的混淆器。接著學習前端禁止事件方面的知識,如禁止滑鼠右鍵、禁止鍵盤按鍵等。最後透過幾個案例了解與爬蟲相關的法律知識和風險點。
適合讀者群 爬蟲工程師、反爬蟲工程師、開發者,或對爬蟲、反爬蟲感興趣的讀者。
作者簡介
韋世東
資深爬蟲工程師,也是Python 開發者和Rust 開發者。
2019年華為雲·雲享專家,掘金社區優秀作者,GitChat認證作者,夜幕團隊(NightTeam)成員。
擁有七年互聯網從業經驗,擅長反爬蟲的設計和繞過技巧。
目錄大綱
目錄
前言
01 開發環境設定
1.1 作業系統的選擇
1.2 練習平台Steamboat
1.3 協力廠商函數庫的安裝
1.4 常用軟體的安裝
1.5 深度學習環境設定
1.6 Node.js 環境設定
02 Web 網站的組成和頁面繪製
2.1 nginx 伺服器
2.2 瀏覽器
2.3 網路通訊協定
03 爬蟲與反爬蟲
3.1 動態網頁與網頁原始程式碼
3.2 爬蟲知識回顧
3.3 反爬蟲的概念與定義
04 資訊驗證型反爬蟲
4.1 User-Agent 反爬蟲
4.2 Cookie 反爬蟲
4.3 簽名驗證反爬蟲
4.4 WebSocket 驗證驗證反爬蟲
4.5 WebSocket 訊息驗證反爬蟲
4.6 WebSocket Ping 反爬蟲
05 動態繪製反爬蟲
5.1 常見的動態繪製反爬蟲案例
5.2 動態繪製的通用解決辦法
06 文字混淆反爬蟲
6.1 圖片偽裝反爬蟲
6.2 CSS 偏移反爬蟲
6.3 SVG 對映反爬蟲
6.4 字型反爬蟲
6.5 文字混淆反爬蟲通用解決辦法
07 特徵識別反爬蟲
7.1 WebDriver 識別
7.2 瀏覽器特徵
7.3 爬蟲特徵
7.4 隱藏連結反爬蟲
08 App 反爬蟲
8.1 App 封包截取
8.2 APK 檔案反編譯
8.3 程式混淆反爬蟲
8.4 App 應用強化知識擴充
8.5 了解應用程式自動化測試工具
09 驗證碼
9.1 字元驗證碼
9.2 計算型驗證碼
9.3 滑動驗證碼
9.4 滑動拼圖驗證碼
9.5 文字點選驗證碼
9.6 滑鼠軌跡的檢測和原理
9.7 驗證碼產品賞析
10 綜合知識
10.1 編碼與加密
10.2 JavaScript 程式混淆
10.3 前端禁止事件
10.4 法律法規

















