python数据集一定要测试集和训练集吗 python数据集有哪些

转载

mob6454cc67554d 2024-04-04 10:45:06

文章标签 titanic数据集 twitter数据集数据集数据科学 Python 文章分类 Python 后端开发

目前数据科学领域正在突飞猛进地发展，易于使用和开箱即用的 Python 数据科学库在不断地脱颖而出。

在这篇文章中，我将介绍五个这样的库，他们加快传数据科学地的进程，从而降低进入初学者的门槛，具体如下：

Dabl
Emot
Flashtext
SweetViz
Numerizer

1、Dabl(数据分析基线库)

Dabl 是由 Andreas Mueller 创建的，它的理念是使初学者更容易学习机器学习，并降低常见任务的门槛。

安装

pip install dabl

pip install dabl

使用

作为典型的机器学习管道的一部分，Dabl 可用于数据集的自动预处理、快速 EDA 以及初始模型构建。让我们用泰坦尼克号数据集来演示此库的一些用例。

我们将从导入库和数据集开始。

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()

python数据集一定要测试集和训练集吗 python数据集有哪些_titanic数据集

结果

2. 使用 dabl 进行探索性数据分析

dabl 提供了一个高级接口，它只需要一行代码就可以制作出精美的可视化图形，有助于进行数据探索。

dabl.plot(titanic_df, target_col="Survived")

dabl.plot(titanic_df, target_col="Survived")

python数据集一定要测试集和训练集吗 python数据集有哪些_twitter数据集_02

python数据集一定要测试集和训练集吗 python数据集有哪些_Python_03

2、Emot

Emot 是 Python 的表情符号和表情检测包。当我们需要进行预处理文本数据，以消除表情符号和表情符号，它是真正的方便。

安装

pip install Emot

pip install Emot

使用

让我们看看几个字符串包含表情符号和表情符号。我们将使用 Emot 将这些表情符号转换为文本。

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("emot.emoji(text)

python数据集一定要测试集和训练集吗 python数据集有哪些_Python_04

结果

3、Flastext

Flastext 是一个 Python 包，允许从句子中提取关键字或替换句子中的关键字。它基于FlashText 算法，比 NLP 任务的正则表达式快得多。

安装

pip install Flastext

pip install Flastext

使用

数据集来自以前的 Kaggle 竞赛：Real or Not? NLP with Disaster Tweets，其目标是创建一个机器学习模型，以预测推文是否属于灾难类别。

让我们导入库和数据集，并快速查看数据。

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

让我们创建训练集中所有推文的语料库

corpus = ', '.join(twitter_df.text)
corpus[:1000]

corpus = ', '.join(twitter_df.text)
corpus[:1000]

Flastext 可以非常方便的使用如下两个功能：

提取关键词/搜索语料库中的单词
替换文本文档中的单词

让我们计算一下 flood 这个词出现在语料库中多少次？

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

我们还可以很容易地替换文档中的单词。让我们使用库替换单词的所有匹配项。

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

4、Sweetviz

Sweetviz 是一个开源 Python 库，它生成美观的高密度可视化效果，通过单个代码行启动 EDA(探索性数据分析)。输出是一个完全自包含的 HTML 应用程序。

库可以对以下任务执行快速分析：

目标分析
可视化和比较
混合类型关联
类型推理：通过可选的手动覆盖自动检测数字、分类和文本功能等等

让我们通过泰坦尼克号数据集来演示

安装

pip install sweetviz

pip install sweetviz

使用

Sweetviz 具有一个名为 Analyze() 的函数，该函数分析整个数据集并提供包含可视化效果的详细报告。

python数据集一定要测试集和训练集吗 python数据集有哪些_数据科学_05

5、Numerizer

Numerizer 是用于将自然语言数字转换为 int 和浮点的 Python 模块。它在预处理文本数据时非常有用。

安装

pip install numerizer

pip install numerizer

使用

我们将使用 Numerizer 将文本数字转换为数字

python数据集一定要测试集和训练集吗 python数据集有哪些_twitter数据集_06

演示

结论

这些是我最近遇到的数据科学的一些有趣和有用的 python 库。这些库正在取代现有的库，最终目标是增强和优化数据科学的过程，降低初学者的门槛。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：单交换机上的VLAN划分单个交换机vlan的配置步骤

下一篇：小型动物识别系统 python 文字输入输出动物识别算法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯