Python 爬蟲基礎與實戰

夏素霞,杜蘭

商品描述

本書是一本應用爬蟲技術進行數據採集、整理和數據可視化的實戰讀物。本書以高效開源的python語言編寫,python擁有多重開源的網絡爬蟲工具、數據分析工具和數據可視化的工具,代碼簡潔,便於學習。本書集中於常用的python第三方工具,從工具的安裝、引入到方法和屬性做了詳細的介紹,同時對各種方法和屬性通過大量案例講解幫助讀者理解。每一章都有基礎應用到綜合實戰,每一個案例都經過實戰檢驗。本書既強調基礎,又力求體現新知識與新技術,在編寫體例上採用簡約的文字表述,配合詳細操作步驟的圖片,圖文並茂,直觀明瞭。註重理論和實踐相結合,設置了知識圖譜、學習目標、知識指南、任務實訓、結果分析等模塊。為了讓讀者能夠及時地檢查自己的學習效果,把握自己的學習進度,每節都附有豐富的鞏固訓練,前五章還配有測試題,並通過配套的技能訓練項目來加強學生技能的培養。

目錄大綱

第1章Python爬蟲應用基礎 (主要介紹爬蟲中重點應用知識)
1.1 Python的安裝與開發環境配置
1.1.1在Windows上安裝
1.1.2開發環境介紹
1.2 Python的基礎
1.2.1 Python的基本語法
1.2.2數據類型與常用函數
1.2.3邏輯控制
1.3 Python序列應用(爬蟲常用)
1.4 Python中的函數與類(含生成器、模塊概念)
1.5 異常處理
第2章 python網頁下載技術
2.1 HTTP協議簡介
2.1.1 HTTP請求消息
2.1.2 HTTP響應消息
2.2 爬蟲基礎簡介
2.2.1 爬蟲分類
2.2.2 爬蟲框架
2.3 robots協議
2.4 網頁下載器requests庫的應用
2.4.1 安裝
2.4.2 requests庫的常用方法
2.4.3 requests爬蟲之定義請求頭
2.4.4 requests庫的響應信息
第3章 頁面解析技術
3.1 html dom 基礎
3.2 css selector定位器
3.2.1 安裝應用環境
3.2.2 css選擇器詳解
3.2.3 lxml etree解釋器
3.2.4 css選擇器綜合應用實戰
3.3 BeautifulSoup4
3.3.1 安裝環境
3.3.2 bs4庫的應用
3.3.3 BeautifulSoup類的基本元素與常用方法
3.3.4 bs4綜合應用實戰
3.4 Xpath
3.4.1 Xpath基礎
3.4.2 Xpath語法
3.4.3 XPath Helper插件
3.4.4 XPath綜合應用
3.4.5 加密文字處理
3.4.6 字符串中無用字符清洗方法
3.5 正則表達式
3.5.1 語法
3.5.2 re模塊中的常用函數
3.5.3 常用正則表達式
3.5.4 正則表達式解析網頁應用實戰
第4章 爬蟲之文件存儲
4.1 Python文件系統
4.1.1基本的文件讀寫
4.1.2 python文件與目錄操作(os模塊)
4.2 CSV文件
4.2.1 CSV簡介
4.2.2 CSV的讀寫與格式轉換
4.3 json文件
4.3.1 json文件簡介
4.3.2 json文件的讀寫
4.5 MySQL數據庫
4.5.1 MySQL的配置
4.5.2元組與列表方式讀寫MySQL
4.5.3 字典方式讀寫MySQL
4.6 網頁數據清洗與存儲綜合應用

第5章 Scrapy框架
5.1 Scray工作機制
5.2 Scrapy的安裝與入門
5.2.1 安裝環境
5.2.2 Scrapy框架部件功能介紹
5.3編寫Scrapy爬蟲
5.3.1 Scrapy框架模式編寫bs4中的綜合應用程序
5.3.2 綜合應用實戰

第6章 動態網頁爬取
6.1 JavaScript與AJAX技術
6.1.1 JavaScript語言
6.1.2 AJAX
6.2抓取AJAX數據
6.2.1分析數據
6.2.2提取數據
6.2.3 綜合實戰(爬取起點中文網信息寫入txt文件)
6.3 抓取動態內容
6.3.1動態渲染頁面
6.3.2使用Selenium
6.3.3 綜合實戰
第7章 數據可視化
7.1 pandas 應用
7.2 matplotlib應用
7.3 pyecharts 應用