文章目录

  • 前言
  • 一、数据处理
  • 1.pandas
  • 2.sklearn
  • 二、图形可视化处理
  • 1.Matplotlib
  • 2.seaborn
  • 总结



前言

本文对python中常用模块进行整理。


一、数据处理

1.pandas

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

import pandas as pd #引入pandas库,并命名为pd

2.sklearn

sklearn 包含了很多种机器学习的方式:,几乎整合了所有的机器学习算法。
Sklearn中算法训练的基本使用:
  1.实例化一个estimator
  2.estimator调用fit()方法,对送入的x_train,y_train值进行训练
  3.模型评估:y_predict=estimator.(x_test)
        y_predict==y_test#预测结果
  或:accuracy=estimator.score(x_test,y_test)#计算出准确率
(1)pipeline

from sklearn.pipeline import Pipeline

sklearn中的Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。

# 定义Pipeline,传入预处理器与选择的模型
my_pipeline=Pipeline(steps=[
    ('preprocessor',preprocessor),
    ('model',RandomForestClassifier(n_estimators=100,random_state=0))
])

# 使用pipeline
X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.2,random_state=0)
my_pipeline.fit(X_train.copy(),y_train.copy())# 训练,预处理会改变原始数据,不想改变copy一下
preds=my_pipeline.predict(X_valid)# 预测,preds为y的预测值

首先,定义一个 Pipeline 。
然后使用pipline
用 Pipeline.fit对训练集进行训练,pipe_lr.fit(X_train, y_train)
用Pipeline.score 对测试集进行预测并评分 pipe_lr.score(X_test, y_test)
用pipeline.predict对测试机进行预测
(2) ensemble

from sklearn.ensemble import RandomForestClassifier

sklearn提供了sklearn.ensemble库,支持众多集成学习算法和模型,比如Random Forrest和Gradient Tree Boosting

(3)model_selection

model_selection是sklearn中的模块,可以用于模型选择,主要包含train_test_split、cross_val_score

**train_test_split

from sklearn.model_selection import train_test_split

train_test_split是sklearn中用于划分数据集,即将原始数据集划分成测试集和训练集两部分的函数。
**cross_val_score

from sklearn.model_selection import cross_val_score

cross_val_score方法是对数据进行多次分割,然后训练多个模型并评分,每次分割不一样。之后我们用评分的均值来代表这个模型的得分。方法重要参数是:cv代表计算多少次,分割次数;scoring代表方法。

#交叉验证cross_val_score
from sklearn.model_selection import cross_val_score
knn = KNeighborsClassifier(n_neighbors=5)
score = cross_val_score(knn,iris_X,iris_y,cv=5,scoring='accuracy')
print(score)
print(score.mean())

二、图形可视化处理

1.Matplotlib

Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

2.seaborn

seaborn就是在matplotlib基础上面的封装,方便直接传参数调用

总结

本文主要介绍了数据处理、图形可视化常用模块。