Get to grips with solving real-world NLP problems, such as dependency parsing, information extraction, topic modeling, and text data visualization
Key FeaturesPython is the most widely used language for natural language processing (NLP) thanks to its extensive tools and libraries for analyzing text and extracting computer-usable data. This book will take you through a range of techniques for text processing, from basics such as parsing the parts of speech to complex topics such as topic modeling, text classification, and visualization.
Starting with an overview of NLP, the book presents recipes for dividing text into sentences, stemming and lemmatization, removing stopwords, and parts of speech tagging to help you to prepare your data. You'll then learn ways of extracting and representing grammatical information, such as dependency parsing and anaphora resolution, discover different ways of representing the semantics using bag-of-words, TF-IDF, word embeddings, and BERT, and develop skills for text classification using keywords, SVMs, LSTMs, and other techniques. As you advance, you'll also see how to extract information from text, implement unsupervised and supervised techniques for topic modeling, and perform topic modeling of short texts, such as tweets. Additionally, the book shows you how to develop chatbots using NLTK and Rasa and visualize text data.
By the end of this NLP book, you'll have developed the skills to use a powerful set of tools for text processing.
What you will learnThis book is for data scientists and professionals who want to learn how to work with text. Intermediate knowledge of Python will help you to make the most out of this book. If you are an NLP practitioner, this book will serve as a code reference when working on your projects.
Table of Contents掌握解决真实世界的NLP问题,如依赖性分析、信息提取、主题建模和文本数据可视化。
主要特点
使用流行的Python软件包(如NLTK、spaCy、sklearn和gensim)分析各种复杂的文本
使用Python库实现常见和不太常见的语言处理任务
克服实施NLP管道时面临的常见挑战
书中描述
Python是自然语言处理(NLP)最广泛使用的语言,这要归功于其广泛的工具和库,用于分析文本和提取计算机可用的数据。本书将带领你学习一系列的文本处理技术,从语音部分解析等基础知识到话题建模、文本分类和可视化等复杂的主题。
从对NLP的概述开始,本书介绍了将文本划分为句子、词根和词缀化、去除停顿词和语篇标签的配方,以帮助你准备数据。然后,你将学习提取和表示语法信息的方法,如依赖性解析和拟态解析,发现使用词包、TF-IDF、词嵌入和BERT表示语义的不同方法,并使用关键词、SVM、LSTM和其他技术发展文本分类的技能。随着你的进步,你还会看到如何从文本中提取信息,为主题建模实现无监督和有监督的技术,并对短文(如推文)进行主题建模。此外,本书还向你展示了如何使用NLTK和Rasa开发聊天机器人,并将文本数据可视化。
在这本NLP书的最后,你将掌握使用一套强大的文本处理工具的技能。
你将学到什么
熟练掌握Python中的基本和高级NLP技术
使用spaCy表示文本中的语法信息,使用词包、TF-IDF和词嵌入表示语义信息
使用不同的方法进行文本分类,包括SVMs和LSTMs
探索不同的主题建模技术,如K-means、LDA、NMF和BERT
使用可视化技术,如不同NLP工具的NER和词云。
使用NLTK和Rasa建立一个基本的聊天机器人
使用正则表达式技术以及统计和深度学习工具从文本中提取信息
本书适用对象
本书是为那些想学习如何处理文本的数据科学家和专业人士编写的。Python的中级知识将帮助你最大限度地发挥本书的作用。如果你是一个NLP从业者,本书将作为你在项目中工作时的代码参考。
目录
学习NLP基础知识
玩转语法
表现文本 - 捕捉语义
对文本进行分类
开始学习信息提取
主题建模
构建聊天机器人
文本数据的可视化
相关文库
电子书-Linux是如何工作的How Linux Works(英)
1432
类型:电子书
上传时间:2022-04
标签:计算机、操作系统、内部结构)
语言:英文
金额:5积分
《面向初学者的机器学习》Machine Learning For Absolute Beginners
1069
类型:电子书
上传时间:2021-05
标签:机器学习、计算机、算法)
语言:英文
金额:5积分
计算机行业深度研究报告:ChatGPT,开启AI新纪元-20230201-31页
1008
类型:行研
上传时间:2023-02
标签:计算机、处理器)
语言:中文
金额:免费
电子书-DAMA数据管理知识体系指南(DAMA DMBOK)(英)
1003
类型:电子书
上传时间:2022-03
标签:计算机、数据库、数据管理)
语言:英文
金额:5积分
电子书-用FastAPI构建数据科学应用:用Python开发、管理和部署高效的机器学习应用程序(英)
1000
类型:电子书
上传时间:2022-03
标签:计算机、数据库、人脸检测系统)
语言:英文
金额:5积分
电子书-高维数据统计:方法、理论与应用(英)
912
类型:电子书
上传时间:2021-10
标签:计算机、统计学、数据统计)
语言:英文
金额:5积分
电子书-软件架构师手册:通过实施有效的架构概念成为成功的软件架构师(英)
895
类型:电子书
上传时间:2021-11
标签:计算机、软件架构 、软件)
语言:英文
金额:5积分
计算机行业:多模态大模型技术演进及研究框架-20230318-51页
885
类型:行研
上传时间:2023-03
标签:计算机、虚拟人、智能人)
语言:中文
金额:免费
计算机行业:GPT产业梳理,GPT_1到ChatGPT-20230214-17页
848
类型:行研
上传时间:2023-02
标签:计算机、GPT)
语言:中文
金额:免费
电子书-大数据MBA:用数据科学推动商业战略(英)
838
类型:电子书
上传时间:2021-11
标签:计算机、数据库、大数据)
语言:英文
金额:5积分
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册