目前数据科学领域正在突飞猛进地发展,易于使用和开箱即用的 Python 数据科学库在不断地脱颖而出。

在这篇文章中,我将介绍五个这样的库,他们加快传数据科学地的进程,从而降低进入初学者的门槛,具体如下:

  • Dabl
  • Emot
  • Flashtext
  • SweetViz
  • Numerizer

1、Dabl(数据分析基线库)

Dabl 是由 Andreas Mueller 创建的,它的理念是使初学者更容易学习机器学习,并降低常见任务的门槛。

安装
pip install dabl

pip install dabl
使用

作为典型的机器学习管道的一部分,Dabl 可用于数据集的自动预处理、快速 EDA 以及初始模型构建。让我们用泰坦尼克号数据集来演示此库的一些用例。

我们将从导入库和数据集开始。

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()



python数据集一定要测试集和训练集吗 python数据集有哪些_titanic数据集


结果

2. 使用 dabl 进行探索性数据分析

dabl 提供了一个高级接口,它只需要一行代码就可以制作出精美的可视化图形,有助于进行数据探索。

dabl.plot(titanic_df, target_col="Survived")

dabl.plot(titanic_df, target_col="Survived")



python数据集一定要测试集和训练集吗 python数据集有哪些_twitter数据集_02

python数据集一定要测试集和训练集吗 python数据集有哪些_Python_03

2、Emot

Emot 是 Python 的表情符号和表情检测包。当我们需要进行预处理文本数据,以消除表情符号和表情符号,它是真正的方便。

安装
pip install Emot

pip install Emot
使用

让我们看看几个字符串包含表情符号和表情符号。我们将使用 Emot 将这些表情符号转换为文本。

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)



python数据集一定要测试集和训练集吗 python数据集有哪些_Python_04


结果

3、Flastext

Flastext 是一个 Python 包,允许从句子中提取关键字或替换句子中的关键字。它基于FlashText 算法,比 NLP 任务的正则表达式快得多。

安装
pip install Flastext

pip install Flastext
使用

数据集来自以前的 Kaggle 竞赛:Real or Not? NLP with Disaster Tweets,其目标是创建一个机器学习模型,以预测推文是否属于灾难类别。

让我们导入库和数据集,并快速查看数据。

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

让我们创建训练集中所有推文的语料库

corpus = ', '.join(twitter_df.text)
corpus[:1000]

corpus = ', '.join(twitter_df.text)
corpus[:1000]

Flastext 可以非常方便的使用如下两个功能:

  • 提取关键词/搜索语料库中的单词
  • 替换文本文档中的单词

让我们计算一下 flood 这个词出现在语料库中多少次?

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

我们还可以很容易地替换文档中的单词。让我们使用库替换单词的所有匹配项。

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

4、Sweetviz

Sweetviz 是一个开源 Python 库,它生成美观的高密度可视化效果,通过单个代码行启动 EDA(探索性数据分析)。输出是一个完全自包含的 HTML 应用程序。

库可以对以下任务执行快速分析:

  • 目标分析
  • 可视化和比较
  • 混合类型关联
  • 类型推理:通过可选的手动覆盖自动检测数字、分类和文本功能等等

让我们通过泰坦尼克号数据集来演示

安装
pip install sweetviz

pip install sweetviz
使用

Sweetviz 具有一个名为 Analyze() 的函数,该函数分析整个数据集并提供包含可视化效果的详细报告。

python数据集一定要测试集和训练集吗 python数据集有哪些_数据科学_05

5、Numerizer

Numerizer 是用于将自然语言数字转换为 int 和浮点的 Python 模块。它在预处理文本数据时非常有用。

安装
pip install numerizer

pip install numerizer
使用

我们将使用 Numerizer 将文本数字转换为数字



python数据集一定要测试集和训练集吗 python数据集有哪些_twitter数据集_06


演示

结论

这些是我最近遇到的数据科学的一些有趣和有用的 python 库。这些库正在取代现有的库,最终目标是增强和优化数据科学的过程,降低初学者的门槛。