python用于数据处理的包 python数据处理的模块

转载

karen 2023-11-29 16:28:27

文章标签 python用于数据处理的包机器学习 python 数据集数据处理 文章分类 Python 后端开发

文章目录

前言
一、数据处理

1.pandas
2.sklearn

二、图形可视化处理

1.Matplotlib
2.seaborn

总结

前言

本文对python中常用模块进行整理。

一、数据处理

1.pandas

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

import pandas as pd #引入pandas库，并命名为pd

2.sklearn

sklearn 包含了很多种机器学习的方式:，几乎整合了所有的机器学习算法。
Sklearn中算法训练的基本使用：
　　1.实例化一个estimator
　　2.estimator调用fit()方法，对送入的x_train,y_train值进行训练
　　3.模型评估：y_predict=estimator.(x_test)
　　　　　　　　y_predict==y_test#预测结果
　　或：accuracy=estimator.score(x_test,y_test)#计算出准确率
（1）pipeline

from sklearn.pipeline import Pipeline

sklearn中的Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。

# 定义Pipeline，传入预处理器与选择的模型
my_pipeline=Pipeline(steps=[
    ('preprocessor',preprocessor),
    ('model',RandomForestClassifier(n_estimators=100,random_state=0))
])

# 使用pipeline
X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2,random_state=0)
my_pipeline.fit(X_train.copy(),y_train.copy())# 训练，预处理会改变原始数据，不想改变copy一下
preds=my_pipeline.predict(X_valid)# 预测，preds为y的预测值

首先，定义一个 Pipeline 。
然后使用pipline
用 Pipeline.fit对训练集进行训练，pipe_lr.fit(X_train, y_train)
用Pipeline.score 对测试集进行预测并评分 pipe_lr.score(X_test, y_test)
用pipeline.predict对测试机进行预测
(2) ensemble

from sklearn.ensemble import RandomForestClassifier

sklearn提供了sklearn.ensemble库，支持众多集成学习算法和模型,比如Random Forrest和Gradient Tree Boosting

（3）model_selection

model_selection是sklearn中的模块，可以用于模型选择，主要包含train_test_split、cross_val_score

**train_test_split

from sklearn.model_selection import train_test_split

train_test_split是sklearn中用于划分数据集，即将原始数据集划分成测试集和训练集两部分的函数。
**cross_val_score

from sklearn.model_selection import cross_val_score

cross_val_score方法是对数据进行多次分割，然后训练多个模型并评分，每次分割不一样。之后我们用评分的均值来代表这个模型的得分。方法重要参数是：cv代表计算多少次，分割次数；scoring代表方法。

#交叉验证cross_val_score
from sklearn.model_selection import cross_val_score
knn = KNeighborsClassifier(n_neighbors=5)
score = cross_val_score(knn,iris_X,iris_y,cv=5,scoring='accuracy')
print(score)
print(score.mean())