大數據採集與爬蟲

李俊翰,付雯,王正霞,胡心雷著

買這商品的人也買了...

商品描述

《大數據採集與爬蟲》主要講解瞭如何使用Python編寫網絡爬蟲程序,
內容包括Python環境搭建、Python的基礎語法、爬蟲基礎知識、網絡基礎知識、
常用爬蟲庫和解析庫、數據持久化存儲、Web API和異步數據抓取技術、
Selenium和ChromeDriver的用法,以及Scrapy爬蟲框架的基本原理和操作。
*後介紹了一個網絡爬蟲的綜合案例,以鞏固前面所學的知識。
《大數據採集與爬蟲》適合作為高等職業院校大數據技術與應用專業的教材,
也適合有一定Python編程經驗並且對爬蟲技術感興趣的讀者閱讀。

目錄大綱

目錄
前言
任務1 Python環境搭建
11任務描述
12 Python概述
13 Python編程環境搭建
131在Windows操作系統下安裝Python
132在Linux操作系統下安裝Python
133在Mac OS操作系統下安裝Python
14安裝集成開發環境PyCharm
141 PyCharm概述
142 PyCharm的安裝和運行
15 Python的數據類型
151整型
152浮點型
153字符串類型
154列表類型
155集合類型
156字典類型
157元組類型
16 Python語句與函數
161條件判斷語句
162循環語句
163自定義函數
17任務實現
18小結
19習題

任務2實現簡單數據採集
21任務描述
22網絡爬蟲基礎知識
221網絡爬蟲概述
222使用網絡爬蟲的風險
223 Python爬蟲的工作過程
23網絡基礎知識
231 HTML
232 URI和URL
233 HTTP
234 Request和Response
24 requests庫的安裝及使用
241 requests庫概述
242 requests庫的安裝
243 requests庫的基本用法
25 lxml庫和BeautifulSoup庫的安裝及使用
251 lxml庫概述
252 BeautifulSoup庫概述
253 lxml庫和BeautifulSoup庫的安裝
254 lxml庫和BeautifulSoup庫的基本用法
26任務實現
27小結
28習題

任務3存儲數據
31任務描述
32 MySQL的安裝及使用
321 MySQL概述
322 MySQL的安裝
323 MySQL的操作
33 PyMySQL的使用
34 CSV和JSON格式
341 CSV格式概述
342輸出CSV文件頭部
343使用Python讀取CSV文件數據
344使用Python向CSV文件寫入數據
345 JSON格式概述
346使用Python讀取JSON文件數據
347使用Python向JSON文件寫入數據
35任務實現
36小結
37習題

任務4使用Web API採集數據
41任務描述
42 GitHub
421 GitHub概述
422 GitHub的基本用法
43 Web API
431 Web API概述
432 GitHub開放API的數據特點
433 GitHub的API請求數據
434獲取API的響應數據
435處理API的響應數據
44任務實現
45小結
46習題

任務5使用AJAX採集數據
51任務描述
52 AJAX
521 AJAX的起源
522 AJAX概述
523 AJAX的特點
524靜態數據
525動態數據
526分析AJAX採集的數據
527提取AJAX採集的數據
53任務實現
54小結
55習題

任務6主流驗證碼解析
61驗證碼概述
62自定義圖形驗證碼解析
621任務描述
622圖形驗證碼概述
623 tesserocr庫概述
624 tesserocr庫的安裝
625自定義圖形驗證碼的生成
626使用tesserocr庫解析自定義圖形驗證碼
627任務實現
63滑動驗證碼解析
631任務描述
632滑動驗證碼概述
633 ChromeDriver概述
634 ChromeDriver的安裝
635 Selenium概述
636 Selenium的安裝
637 Selenium和ChromeDriver的基本用法
638任務實現
64點擊式驗證碼解析
641任務描述
642點擊式驗證碼概述
643聚合數據平台接口概述
644任務實現
65小結
66習題

任務7模擬登錄
71使用Selenium和ChromeDriver實現模擬登錄
711任務描述
712 GET概述
713 GET的基本用法
714 POST概述
715 POST的基本用法
716 GET和POST的區別
717任務實現
72使用Cookie實現模擬登錄
721任務描述
722 Cookie概述
723 Session概述
724 Cookie和Session的區別
725任務實現——使用Cookie模擬登錄
726任務實現——使用requests庫實現用Cookie和Session模擬登錄
73小結
74習題

任務8使用Scrapy爬蟲框架採集數據
81任務描述
82 Scrapy
821 Scrapy概述
822 Scrapy的工作原理
83 Scrapy的安裝
831在Windows操作系統下安裝Scrapy
832在Linux操作系統下安裝Scrapy
84 Scrapy各組件的用法
841 Selector類
842 Spider類
843下載器中間件
844條目管道
845網絡爬蟲中間件
85任務實現
86小結
87習題

任務9綜合案例
91任務描述
92頁面分析
93模擬登錄
94獲取靜態數據
95獲取動態數據
96數據持久化保存
97小結
目錄