Python 網絡爬蟲實戰

呂雲翔 張揚

  • 出版商: 清華大學
  • 出版日期: 2019-05-01
  • 售價: $479
  • 貴賓價: 9.5$455
  • 語言: 簡體中文
  • ISBN: 7302515921
  • ISBN-13: 9787302515920
  • 相關分類: 網路爬蟲 Web-crawler

立即出貨

  • Python 網絡爬蟲實戰-preview-1
  • Python 網絡爬蟲實戰-preview-2
  • Python 網絡爬蟲實戰-preview-3
Python 網絡爬蟲實戰-preview-1

買這商品的人也買了...

商品描述

本書介紹如何利用Python進行網絡爬蟲程序的開發,從Python語言的基本特性入手,詳細介紹了Python爬蟲開發的相關知識,涉及HTTP、HTML、JavaScript、正則表達式、自然語言處理、數據科學等內容。全書共分為14章,包括Python基礎知識、網站分析、網頁解析、Python文件的讀寫、Python與數據庫、AJAX技術、模擬登錄、文本與數據分析、網站測試、Scrapy爬蟲框架、爬蟲性能等多個主題,內容覆蓋網絡抓取與爬蟲編程中的主要知識和技術,在重視理論基礎的前提下從實用性和豐富度出發,結合實例演示了編寫爬蟲程序的核心流程。 本書適合Python語言初學者、網絡爬蟲技術愛好者、數據分析從業人員以及高等院校電腦科學、軟件工程等相關專業的師生閱讀。

目錄大綱

基礎篇 
第1章Python與網絡爬蟲 
1.1 Python語言 
1.1.1什麼是Python 
1.1.2 Python的應用現狀 
1.2 Python的安裝與開發環境配置 
1.2.1在Windows上安裝 
1.2.2在Ubuntu和Mac OS上安裝 
1.2.3 PyCharm的使用 
1.2.4 Jupyter Notebook 
1.3 Python的基本語法 
1.3.1數據類型 
1.3.2邏輯語句 
1.3.3 Python中的函數與類 
1.3.4如何學習Python 
1.4互聯網、HTTP與HTML 
1.4.1互聯網與HTTP協議 
1.4.2 HTML 
1.5 HelloSpider 
1.5.1第一個爬蟲程序 
1.5.2對爬蟲程序的思考 
1.6調研網站 
1.6.1網站的robots.txt與Sitemap 
1.6.2查看網站所用的技術 
1.6.3查看網站所有者的信息 
1.6.4使用開發者工具檢查網頁 
1.7本章小結 
第2章數據的採集 
2.1從抓取開始 
2.2正則表達式 
2.2.1初識正則表達式 
2.2.2正則表達式的簡單使用 
2.3 BeautifulSoup 
2.3.1 BeautifulSoup的安裝與特點 
2.3.2 BeautifulSoup的基本使用 
2.4 XPath與lxml 
2.4.1 XPath 
2.4.2 lxml與XPath的使用 
2.5遍歷頁面 
2.5.1抓取下一個頁面 
2.5.2完成爬蟲程序 
2.6使用API 
2.6.1 API簡介 
2.6.2 API使用示例 
2.7本章小結 
第3章文件與數據的存儲 
3.1 Python中的文件 
3.1.1基本的文件讀寫 
3.1.2序列化 
3.2字符串 
3.3 Python與圖片 
3.3.1 PIL與Pillow 
3.3.2 Python與OpenCV簡介 
…… 
進階篇 
第4章JavaScript與動態內容 
第5章表單與模擬登錄 
第6章數據的進一步處理 
高級篇 
第7章更靈活和更多樣的爬蟲 
第8章瀏覽器模擬與網站測試 
第9章更強大的爬蟲 
實踐篇 
第10章爬蟲實踐:下載網頁中的小說和購物評論 
第11章爬蟲實踐:保存感興趣的圖片 
第12章爬蟲實踐:網上影評分析 
第13章爬蟲實踐:使用爬蟲下載網頁 
第14章爬蟲實踐:使用爬蟲框架 
附錄A 
參考文獻