Python網絡爬蟲技術

江吉彬 張良均

  • 出版商: 人民郵電
  • 出版日期: 2019-12-01
  • 定價: $239
  • 售價: 7.9$189
  • 語言: 簡體中文
  • 頁數: 165
  • ISBN: 7115505063
  • ISBN-13: 9787115505064
  • 相關分類: Web-crawler 網路爬蟲
  • 立即出貨 (庫存 < 3)

  • Python網絡爬蟲技術-preview-1
  • Python網絡爬蟲技術-preview-2
Python網絡爬蟲技術-preview-1

相關主題

商品描述

本書以任務為導向,較為全面地介紹了不同場景下Python爬取網絡數據的方法,包括靜態網頁、動態網頁、登錄後才能訪問的網頁、PC客戶端、App等場景。全書共7章,第1章介紹了爬蟲與反爬蟲的基本概念,以及Python爬蟲環境的配置,第2章介紹了爬取過程中涉及的網頁前端基礎,第3章介紹了在靜態網頁中爬取數據的過程,第4章介紹了在動態網頁中爬取數據的過程,第5章介紹了對登錄後才能訪問的網頁進行模擬登錄的方法,第6章介紹了爬取PC客戶端、App的數據的方法,第7章介紹了使用Scrapy爬蟲框架爬取數據的過程。本書所有章節都包含了實訓與課後習題,通過練習和操作實戰,可幫助讀者鞏固所學的內容。

目錄大綱

第1章 Python爬蟲環境與爬蟲簡介
任務1.1 認識爬蟲
1.1.1 爬蟲的概念
1.1.2 爬蟲的原理
1.1.3 爬蟲的合法性與robot.txt協議
任務1.2 認識反爬蟲
1.2.1 網站反爬蟲的目的與手段
1.2.2 爬取策略制定
任務1.3 配置Python爬蟲環境
1.3.1 Python爬蟲相關庫介紹與配置
1.3.2 配置MySQL數據庫
1.3.3 配置MongoDB數據庫
小結
實訓 Python爬蟲環境配置
課後習題
第2章 網頁前端基礎
任務2.1 認識Python網絡編程
2.1.1 了解Python網絡編程Socket庫
2.1.2 使用Socket庫進行TCP編程
2.1.3 使用Socket庫進行UDP編程
任務2.2 認識HTTP
2.2.1 熟悉HTTP請求方法與過程
2.2.2 熟悉常見HTTP狀態碼
2.2.3 熟悉HTTP頭部信息
2.2.4 熟悉Cookie
小結
實訓 使用Socket庫連接百度首頁
課後習題
第3章 簡單靜態網頁爬取
任務3.1 實現HTTP請求
3.1.1 使用urllib 3庫實現
3.1.2 使用Requests庫實現
任務3.2 解析網頁
3.2.1 使用Chrome開發者工具查看網頁
3.2.2 使用正則表達式解析網頁
3.2.3 使用Xpath解析網頁
3.2.4 使用Beautiful Soup庫解析網頁
任務3.3 數據存儲
3.3.1 將數據存儲為JSON文件
3.3.2 將數據存儲到MySQL數據庫
小結
實訓
實訓1 生成GET請求並獲取指定網頁內容
實訓2 搜索目標節點並提取文本內容
實訓3 在數據庫中建立新表並導入數據
課後習題
第4章 常規動態網頁爬取
任務4.1 逆向分析爬取動態網頁
4.1.1 了解靜態網頁和動態網頁的區別
4.1.2 逆向分析爬取動態網頁
任務4.2 使用Selenium庫爬取動態網頁
4.2.1 安裝Selenium庫及下載瀏覽器補丁
4.2.2 打開瀏覽對象並訪問頁面
4.2.3 頁面等待
4.2.4 頁面操作
4.2.5 元素選取
4.2.6 預期條件
任務4.3 存儲數據至MongoDB數據庫
4.3.1 了解MongoDB數據庫和MySQL數據庫的區別
4.3.2 將數據存儲到MongoDB數據庫
小結
實訓
實訓1 爬取網頁“http://www.ptpress.com.cn”的推薦圖書信息
實訓2 爬取某網頁的Java圖書信息
實訓3 將數據存儲到MongoDB數據庫中
課後習題
第5章 模擬登錄
任務5.1 使用表單登錄方法實現模擬登錄
5.1.1 查找提交入口
5.1.2 查找並獲取需要提交的表單數據
5.1.3 使用POST請求方法登錄
任務5.2 使用Cookie登錄方法實現模擬登錄
5.2.1 使用瀏覽器Cookie登錄
5.2.2 基於表單登錄的Cookie登錄
小結
實訓
實訓1 使用表單登錄方法模擬登錄數睿思論壇
實訓2 使用瀏覽器Cookie模擬登錄數睿思論壇
實訓3 基於表單登錄後的Cookie模擬登錄數睿思論壇
課後習題
第6章 終端協議分析
任務6.1 分析PC客戶端抓包
6.1.1 了解HTTP Analyzer工具
6.1.2 爬取千千音樂PC客戶端數據
任務6.2 分析App抓包
6.2.1 了解Fiddler工具
6.2.2 分析人民日報App
小結
實訓
實訓1 抓取千千音樂PC客戶端的推薦歌曲信息
實訓2 爬取人民日報App的旅遊模塊信息
課後習題
第7章 Scrapy爬蟲
任務7.1 認識Scarpy
7.1.1 了解Scrapy爬蟲的框架
7.1.2 熟悉Scrapy的常用命令
任務7.2 通過Scrapy爬取文本信息
7.2.1 創建Scrapy爬蟲項目
7.2.2 修改items/pipelines腳本
7.2.3 編寫spider腳本
7.2.4 修改settings腳本
任務7.3 定制中間件
7.3.1 定制下載器中間件
7.3.2 定制Spider中間件
小結
實訓
實訓1 爬取“http://www.tipdm.org”的所有新聞動態
實訓2 定制BdRaceNews爬蟲項目的中間件
課後習題
附錄A
附錄B
參考文獻