Build machine learning models, natural language processing applications, and recommender systems with PySpark to solve various business challenges. This book starts with the fundamentals of Spark and its evolution and then covers the entire spectrum of traditional machine learning algorithms along with natural language processing and recommender systems using PySpark.
Machine Learning with PySpark shows you how to build supervised machine learning models such as linear regression, logistic regression, decision trees, and random forest. You’ll also see unsupervised machine learning models such as K-means and hierarchical clustering. A major portion of the book focuses on feature engineering to create useful features with PySpark to train the machine learning models. The natural language processing section covers text processing, text mining, and embedding for classification.
After reading this book, you will understand how to use PySpark’s machine learning library to build and train various machine learning models. Additionally you’ll become comfortable with related PySpark components, such as data ingestion, data processing, and data analysis, that you can use to develop data-driven intelligent applications.
What You Will Learn
• Build a spectrum of supervised and unsupervised machine learning algorithms
• Implement machine learning algorithms with Spark MLlib libraries
• Develop a recommender system with Spark MLlib libraries
• Handle issues related to feature engineering, class balance, bias and variance, and cross validation for building an optimal fit model
Who This Book Is For
Data science and machine learning professionals.
用PySpark建立机器学习模型、自然语言处理应用和推荐系统,以解决各种商业挑战。本书从Spark的基本原理及其演变开始,然后涵盖了传统机器学习算法的全部内容,以及使用PySpark的自然语言处理和推荐系统。
PySpark的机器学习》向你展示了如何建立有监督的机器学习模型,如线性回归、逻辑回归、决策树和随机森林。你还会看到无监督的机器学习模型,如K-means和分层聚类。本书的一个主要部分集中在特征工程上,用PySpark创建有用的特征来训练机器学习模型。自然语言处理部分涵盖了文本处理、文本挖掘和分类的嵌入。
读完本书后,你将了解如何使用PySpark的机器学习库来建立和训练各种机器学习模型。此外,你还会对相关的PySpark组件(如数据摄取、数据处理和数据分析)感到满意,你可以用它来开发数据驱动的智能应用程序。
你将会学到什么
- 建立一系列有监督和无监督的机器学习算法
- 用Spark MLlib库实现机器学习算法
- 使用Spark MLlib库开发一个推荐系统
- 处理与特征工程、类平衡、偏差和方差以及交叉验证有关的问题,以建立一个最佳拟合模型
本书适用对象
数据科学和机器学习专业人士。
通过www.DeepL.com/Translator(免费版)翻译
相关文库
计算机行业深度报告:DeepSeek系列报告之AI+医疗
2266
类型:行研
上传时间:2025-02
标签:计算机、DeepSeek、AI+医疗)
语言:中文
金额:5积分
电子书-Linux是如何工作的How Linux Works(英)
1570
类型:电子书
上传时间:2022-04
标签:计算机、操作系统、内部结构)
语言:英文
金额:5积分
《网络是怎样连接的》-75页读书笔记
1483
类型:读书笔记
上传时间:2025-01
标签:网络、计算机、科普)
语言:中文
金额:9.9元
《面向初学者的机器学习》Machine Learning For Absolute Beginners
1184
类型:电子书
上传时间:2021-05
标签:机器学习、计算机、算法)
语言:英文
金额:5积分
电子书-用FastAPI构建数据科学应用:用Python开发、管理和部署高效的机器学习应用程序(英)
1159
类型:电子书
上传时间:2022-03
标签:计算机、数据库、人脸检测系统)
语言:英文
金额:5积分
电子书-软件架构师手册:通过实施有效的架构概念成为成功的软件架构师(英)
1136
类型:电子书
上传时间:2021-11
标签:计算机、软件架构 、软件)
语言:英文
金额:5积分
电子书-DAMA数据管理知识体系指南(DAMA DMBOK)(英)
1102
类型:电子书
上传时间:2022-03
标签:计算机、数据库、数据管理)
语言:英文
金额:5积分
计算机行业深度研究报告:ChatGPT,开启AI新纪元-20230201-31页
1051
类型:行研
上传时间:2023-02
标签:计算机、处理器)
语言:中文
金额:免费
电子书-高维数据统计:方法、理论与应用(英)
993
类型:电子书
上传时间:2021-10
标签:计算机、统计学、数据统计)
语言:英文
金额:5积分
计算机行业:多模态大模型技术演进及研究框架-20230318-51页
936
类型:行研
上传时间:2023-03
标签:计算机、虚拟人、智能人)
语言:中文
金额:免费
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册