目前数据科学领域正在突飞猛进地发展,易于使用和开箱即用的 Python 数据科学库在不断地脱颖而出。
在这篇文章中,我将介绍五个这样的库,他们加快传数据科学地的进程,从而降低进入初学者的门槛,具体如下:
- Dabl
- Emot
- Flashtext
- SweetViz
- Numerizer
1、Dabl(数据分析基线库)
Dabl 是由 Andreas Mueller 创建的,它的理念是使初学者更容易学习机器学习,并降低常见任务的门槛。
安装
pip install dabl
pip install dabl
使用
作为典型的机器学习管道的一部分,Dabl 可用于数据集的自动预处理、快速 EDA 以及初始模型构建。让我们用泰坦尼克号数据集来演示此库的一些用例。
我们将从导入库和数据集开始。
#import the basiclibraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()
#import the basiclibraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()
结果
2. 使用 dabl 进行探索性数据分析
dabl 提供了一个高级接口,它只需要一行代码就可以制作出精美的可视化图形,有助于进行数据探索。
dabl.plot(titanic_df, target_col="Survived")
dabl.plot(titanic_df, target_col="Survived")
2、Emot
Emot 是 Python 的表情符号和表情检测包。当我们需要进行预处理文本数据,以消除表情符号和表情符号,它是真正的方便。
安装
pip install Emot
pip install Emot
使用
让我们看看几个字符串包含表情符号和表情符号。我们将使用 Emot 将这些表情符号转换为文本。
import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)
import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)
结果
3、Flastext
Flastext 是一个 Python 包,允许从句子中提取关键字或替换句子中的关键字。它基于FlashText 算法,比 NLP 任务的正则表达式快得多。
安装
pip install Flastext
pip install Flastext
使用
数据集来自以前的 Kaggle 竞赛:Real or Not? NLP with Disaster Tweets,其目标是创建一个机器学习模型,以预测推文是否属于灾难类别。
让我们导入库和数据集,并快速查看数据。
from flashtext import KeywordProcessor
twitter_df = pd.read_csv('data/tweets.csv')
twitter_df.head()
from flashtext import KeywordProcessor
twitter_df = pd.read_csv('data/tweets.csv')
twitter_df.head()
让我们创建训练集中所有推文的语料库
corpus = ', '.join(twitter_df.text)
corpus[:1000]
corpus = ', '.join(twitter_df.text)
corpus[:1000]
Flastext 可以非常方便的使用如下两个功能:
- 提取关键词/搜索语料库中的单词
- 替换文本文档中的单词
让我们计算一下 flood 这个词出现在语料库中多少次?
#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))
#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))
我们还可以很容易地替换文档中的单词。让我们使用库替换单词的所有匹配项。
#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])
#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])
4、Sweetviz
Sweetviz 是一个开源 Python 库,它生成美观的高密度可视化效果,通过单个代码行启动 EDA(探索性数据分析)。输出是一个完全自包含的 HTML 应用程序。
库可以对以下任务执行快速分析:
- 目标分析
- 可视化和比较
- 混合类型关联
- 类型推理:通过可选的手动覆盖自动检测数字、分类和文本功能等等
让我们通过泰坦尼克号数据集来演示
安装
pip install sweetviz
pip install sweetviz
使用
Sweetviz 具有一个名为 Analyze() 的函数,该函数分析整个数据集并提供包含可视化效果的详细报告。
5、Numerizer
Numerizer 是用于将自然语言数字转换为 int 和浮点的 Python 模块。它在预处理文本数据时非常有用。
安装
pip install numerizer
pip install numerizer
使用
我们将使用 Numerizer 将文本数字转换为数字
演示
结论
这些是我最近遇到的数据科学的一些有趣和有用的 python 库。这些库正在取代现有的库,最终目标是增强和优化数据科学的过程,降低初学者的门槛。