This thoroughly revised guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You'll learn how to combine small yet powerful command-line tools to quickly obtain, scrub, explore, and model your data. To get you started, author Jeroen Janssens provides a Docker image packed with over 80 tools--useful whether you work with Windows, macOS, or Linux. You'll quickly discover why the command line is an agile, scalable, and extensible technology. Even if you're comfortable processing data with Python or R, you'll learn how to greatly improve your data science workflow by leveraging the command line's power. This book is ideal for data scientists, analysts, and engineers; software and machine learning engineers; and system administrators. Obtain data from websites, APIs, databases, and spreadsheets Perform scrub operations on text, CSV, HTM, XML, and JSON files Explore data, compute descriptive statistics, and create visualizations Manage your data science workflow Create reusable command-line tools from one-liners and existing Python or R code Parallelize and distribute data-intensive pipelines Model data with dimensionality reduction, clustering, regression, and classification algorithms
这本经过彻底修订的指南展示了命令行的灵活性如何帮助你成为一个更有效率和更有成效的数据科学家。你将学习如何结合小而强大的命令行工具来快速获取、擦洗、探索和建模你的数据。为了让你开始学习,作者Jeroen Janssens提供了一个包含80多个工具的Docker镜像--无论你在Windows、macOS还是Linux上工作,都是有用的。你会很快发现为什么命令行是一种敏捷的、可扩展的和可延伸的技术。即使你对用Python或R处理数据感到满意,你也会学到如何通过利用命令行的力量来大大改善你的数据科学工作流程。本书是数据科学家、分析师和工程师;软件和机器学习工程师;以及系统管理员的理想选择。从网站、API、数据库和电子表格中获取数据 对文本、CSV、HTM、XML和JSON文件进行刷新操作 探索数据,计算描述性统计,并创建可视化 管理你的数据科学工作流程 从单行代码和现有的Python或R代码中创建可重复使用的命令行工具 平行化和分发数据密集型管道 用降维、聚类、回归和分类算法对数据建模
相关文库
计算机行业深度报告:DeepSeek系列报告之AI+医疗
2266
类型:行研
上传时间:2025-02
标签:计算机、DeepSeek、AI+医疗)
语言:中文
金额:5积分
电子书-Linux是如何工作的How Linux Works(英)
1570
类型:电子书
上传时间:2022-04
标签:计算机、操作系统、内部结构)
语言:英文
金额:5积分
《网络是怎样连接的》-75页读书笔记
1483
类型:读书笔记
上传时间:2025-01
标签:网络、计算机、科普)
语言:中文
金额:9.9元
《面向初学者的机器学习》Machine Learning For Absolute Beginners
1184
类型:电子书
上传时间:2021-05
标签:机器学习、计算机、算法)
语言:英文
金额:5积分
电子书-用FastAPI构建数据科学应用:用Python开发、管理和部署高效的机器学习应用程序(英)
1159
类型:电子书
上传时间:2022-03
标签:计算机、数据库、人脸检测系统)
语言:英文
金额:5积分
电子书-软件架构师手册:通过实施有效的架构概念成为成功的软件架构师(英)
1136
类型:电子书
上传时间:2021-11
标签:计算机、软件架构 、软件)
语言:英文
金额:5积分
电子书-DAMA数据管理知识体系指南(DAMA DMBOK)(英)
1102
类型:电子书
上传时间:2022-03
标签:计算机、数据库、数据管理)
语言:英文
金额:5积分
计算机行业深度研究报告:ChatGPT,开启AI新纪元-20230201-31页
1051
类型:行研
上传时间:2023-02
标签:计算机、处理器)
语言:中文
金额:免费
电子书-高维数据统计:方法、理论与应用(英)
993
类型:电子书
上传时间:2021-10
标签:计算机、统计学、数据统计)
语言:英文
金额:5积分
计算机行业:多模态大模型技术演进及研究框架-20230318-51页
936
类型:行研
上传时间:2023-03
标签:计算机、虚拟人、智能人)
语言:中文
金额:免费
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册