數據科學實戰之網絡爬取:Python實踐和示例
希普·萬登·布魯克 (Seppe vanden Broucke), 巴特·巴森斯 (Bart Baesens)
- 出版商: 機械工業
- 出版日期: 2018-12-08
- 定價: $414
- 售價: 7.9 折 $327
- 語言: 簡體中文
- 頁數: 220
- 裝訂: 平裝
- ISBN: 7111614046
- ISBN-13: 9787111614043
-
相關分類:
Web-crawler 網路爬蟲
- 此書翻譯自: Practical Web Scraping for Data Science: Best Practices and Examples with Python
立即出貨
買這商品的人也買了...
-
$147OpenCV 3 計算機視覺 : Python 語言實現, 2/e (Learning OpenCV 3 Computer Vision with Python, 2/e) -
$294Tableau 數據可視化從入門到精通 -
$403AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications) -
$254亞馬遜 AWS 雲基礎與實戰 -
$474深度學習入門之 PyTorch -
$534Python 數據分析基礎 -
$401從物聯到萬聯 : Node.js 與樹莓派萬維物聯網構建實戰 -
$352關聯數據:萬維網上的結構化數據 -
Learning Robotic Process Automation$1,800$1,710 -
Python GUI 程式設計:PyQt5 實戰$690$538 -
人工智能基礎 (高中版)(*封面書況瑕疵,不介意再下單)$210$200 -
JavaScript 再上一層樓:用新一代 Node.js 把後端也搞定$620$527 -
$1,9805G NR: The Next Generation Wireless Access Technology (Paperback) -
我的科學實務課:運用配線、接電、焊錫完成11款電子作品$520$442 -
$324人工智能 第2版 -
$352深度學習技術圖像處理入門 -
AI 醫療大未來 -- 台灣第一本智慧醫療關鍵報告$360$306 -
$237解析深度學習:捲積神經網絡原理與視覺實踐 -
PyTorch 深度學習與自然語言中文處理$420$328 -
$403Python 統計分析 (An Introduction to Statistics with Python: With Applications in the Life Sciences) -
$454OpenCV 3 和 Qt5 電腦視覺應用開發 (Computer Vision with OpenCV 3 and Qt5: Build visually appealing, multithreaded, cross-platform computer vision applications) -
$352量化交易學習指南 基於R語言 -
深度學習入門教室:6堂基礎課程 + Python 實作練習,Deep Learning、人工智慧、機器學習的理論和應用全圖解$550$495 -
$374Python機器學習 -
$454Python 3 反爬蟲原理與繞過實戰
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書提供了一個完整的、現代的Web抓取指南,使用Python作為編程語言,專為數據科學的讀者編寫,探討了Web抓取和以及其背後的大量Web技術。書中首先簡要概述抓取和現實生活中的用例,解釋了HTTP、HTML和CSS的核心概念作為基礎。*後總結了一些*佳實踐和一系列的例子,這些數據科學用例匯集了你學到的所有知識。讀者將學習到如何利用已建立的*佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術。
作者簡介
Seppe vanden Broucke是比利時魯汶大學經濟與商務學院數據科學方面的助理教授。他的研究興趣包括商務數據挖掘和分析、機器學習、流程管理和流程挖掘,相關論文發表在知名國際期刊和會議上。Seppe從事包括高級分析、大數據和信息管理課程方面的教學工作,也經常提供工業和商業用戶的培訓。除了工作,Seppe喜歡旅行、閱讀(從Murakami到Bukowski到Asimov)、聽音樂(從Booka Shade到Miles Davis到Claude Debussy)、看電影和連續劇(由於沒時間現在看得少多了)、玩遊戲和關註新聞事件。
Bart Baesens是比利時魯汶大學大數據和數據分析方面的教授,也是英國南安普頓大學的講師。他對大數據及分析、信用風險建模、欺詐檢測和營銷分析進行了廣泛的研究。Bart撰寫了200多篇學術論文和若乾本書。除了與家人共度時光外,他還是一名布魯日足球俱樂部的鐵桿球迷。Bart是美食家和業餘廚師……。Bart熱愛旅行,對一次世界大戰著迷,並閱讀了很多關於這個主題的書籍。
目錄大綱
譯者序
作者簡介
技術審校者簡介
前言
第一部分網絡爬取基礎
第1章簡介2
1.1什麼是網絡爬取2
1.1.1網絡爬取為什麼用於數據科學2
1.1.2誰在使用網絡爬取4
1.2準備工作6
1.2.1設置6
1.2.2 Python快速入門7
第2章網絡傳輸協議HTTP18
2.1網絡的魔力18
2.2超文本傳輸協議20
2.3 Python中的HTTP—Requests庫25
2.4帶參數的URL查詢字符串28
第3章HTML和CSS36
3.1超文本標記語言HTML36
3.2將瀏覽器用作開發工具38
3.3層疊樣式表CSS42
3.4 Beautiful Soup庫45
3.5有關Beautiful Soup的更多內容53
第二部分高級網絡爬取
第4章深入挖掘HTTP60
4.1使用表單和POST請求60
4.2其他HTTP請求方法71
4.3關於頭的更多信息73
4.4使用Cookie79
4.5 requests庫的session對象87
4.6二進制、JSON和其他形式的內容89
第5章處理JavaScript93
5.1什麼是JavaScript93
5.2爬取JavaScript94
5.3使用Selenium爬取網頁98
5.4 Selenium的更多信息109
第6章從網絡爬取到網絡爬蟲115
6.1什麼是網絡爬蟲115
6.2使用Python實現網絡爬蟲117
6.3數據庫存儲120
第三部分相關管理問題及最佳實踐
第7章網絡爬取涉及的管理和法律問題130
7.1數據科學過程130
7.2網絡爬取適合用於哪裡133
7.3法律問題134
第8章結語139
8.1其他工具139
8.1.1其他Python庫139
8.1.2 Scrapy庫140
8.1.3緩存140
8.1.4代理服務器141
8.1.5基於其他編程語言的爬取141
8.1.6命令行工具142
8.1.7圖形化的爬取工具142
8.2最佳實踐和技巧143
第9章示例147
9.1爬取Hacker News網頁148
9.2使用Hacker News API150
9.3爬取引用信息150
9.4爬取書籍信息154
9.5爬取GitHub上項目被收藏的次數156
9.6爬取抵押貸款利率160
9.7爬取和可視化IMDB評級165
9.8爬取IATA航空公司信息166
9.9爬取和分析網絡論壇的互動171
9.10收集和聚類時尚數據集177
9.11 Amazon評論的情感分析180
9.12爬取和分析維基百科關聯圖188
9.13爬取和可視化董事會成員圖194
9.14使用深度學習破解驗證碼圖片197
