Data Science at the Command Line: Facing the Future with Time-Tested Tools (Paperback)
暫譯: 命令行數據科學:以經典工具迎接未來 (平裝本)

Jeroen Janssens

買這商品的人也買了...

相關主題

商品描述

This hands-on guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You’ll learn how to combine small, yet powerful, command-line tools to quickly obtain, scrub, explore, and model your data.

To get you started—whether you’re on Windows, OS X, or Linux—author Jeroen Janssens introduces the Data Science Toolbox, an easy-to-install virtual environment packed with over 80 command-line tools.

Discover why the command line is an agile, scalable, and extensible technology. Even if you’re already comfortable processing data with, say, Python or R, you’ll greatly improve your data science workflow by also leveraging the power of the command line.

  • Obtain data from websites, APIs, databases, and spreadsheets
  • Perform scrub operations on plain text, CSV, HTML/XML, and JSON
  • Explore data, compute descriptive statistics, and create visualizations
  • Manage your data science workflow using Drake
  • Create reusable tools from one-liners and existing Python or R code
  • Parallelize and distribute data-intensive pipelines using GNU Parallel
  • Model data with dimensionality reduction, clustering, regression, and classification algorithms

商品描述(中文翻譯)

這本實用指南展示了命令行的靈活性如何幫助你成為更高效和更具生產力的資料科學家。你將學會如何結合小而強大的命令行工具,快速獲取、清理、探索和建模你的數據。

為了讓你開始使用——無論你是在 Windows、OS X 還是 Linux——作者 Jeroen Janssens 介紹了資料科學工具箱(Data Science Toolbox),這是一個易於安裝的虛擬環境,內含超過 80 種命令行工具。

了解為什麼命令行是一種靈活、可擴展和可延伸的技術。即使你已經習慣使用 Python 或 R 來處理數據,你仍然可以通過利用命令行的力量來大幅改善你的資料科學工作流程。

- 從網站、API、數據庫和電子表格獲取數據
- 對純文本、CSV、HTML/XML 和 JSON 執行清理操作
- 探索數據、計算描述性統計並創建可視化
- 使用 Drake 管理你的資料科學工作流程
- 從單行程式碼和現有的 Python 或 R 代碼創建可重用的工具
- 使用 GNU Parallel 將數據密集型管道進行並行化和分配
- 使用降維、聚類、回歸和分類算法對數據進行建模