python ipython用法 python运用

转载

mob64ca1402a190 2023-09-03 13:39:32

文章标签 python ipython用法 MSE ci 子图 文章分类 Python 后端开发

Python 常用功能实现

python 读取、操作Excel--使用xlrd

导入模块
打开Excel文件读取数据
使用技巧

获取一个工作表
获取整行整列的值（数组）
获取行数和列数
获取单元格
使用行列索引获取单元格
写入
xlrd是用于读取的模块,写入的话请用 xlwt

绘图可视化-matplotlib

一个小demo：
图标正常显示中文
设置matplotlib参数
线条相关属性标记设置

线条风格
线条标记
颜色

指定背景色

基础

确定坐标范围
叠加图
plt.figure()
plt.text()添加文字说明
plt.annotate()文本注释
plt.xticks()/plt.yticks()设置轴记号
plt.legend()添加图例
matplotlib.pyplot
给特殊点做注释
plt.subplot()

pyplot.pie参数

colors颜色

用scikit-learn和pandas实现线性回归学习

导入库
读取数据

测试数据读取是否成功

准备运行算法的数据

准备样本特征X，用AT， V，AP和RH这4个列作为样本特征
准备样本输出y，用PE作为样本输出

划分训练集和测试集

查看训练集和测试集的维度

运行scikit-learn的线性模型
模型评价

查看模型的MSE和RMSE

交叉验证
画图观察结果

使用graphviz画关系图

python 读取、操作Excel–使用xlrd

*一般xlsx不如csv文件方便处理，用excel打开xlsx文件，另存为csv文件，再用pandas模块处理

导入模块

import xlrd

打开Excel文件读取数据

data = xlrd.open_workbook('excelFile.xls')

使用技巧

获取一个工作表

table = data.sheets()[0]          #通过索引顺序获取
table = data.sheet_by_index(0)    #通过索引顺序获取
table = data.sheet_by_name(u'Sheet1') #通过名称获取

获取整行整列的值（数组）

table.row_values(i)
table.col_values(i)

获取行数和列数

nrows = table.nrows
ncols = table.ncols

获取单元格

cell_A1 = table.cell(0,0).value
cell_C4 = table.cell(2,3).value

使用行列索引获取单元格

cell_A1 = table.row(0)[0].value
cell_A2 = table.col(1)[0].value

写入

row = 0
col = 0
xf = 0 #扩展的格式化
table.put_cell(row,col,ctype,value,xf)  
table.cell(0,0) #单元格的值
table.cell(0,0).value #单元格的值

xlrd是用于读取的模块,写入的话请用 xlwt

绘图可视化-matplotlib

一个小demo：

import matplotlib.pyplot as plt
labels='frogs','hogs','dogs','logs'
sizes=15,20,45,10
colors='yellowgreen','gold','lightskyblue','lightcoral'
explode=0,0.1,0,0
plt.pie(sizes,explode=explode,labels=labels,colors=colors,autopct='%1.1f%%',shadow=True,startangle=50)
plt.axis('equal')
plt.show()

结果：

python ipython用法 python运用_python ipython用法

图标正常显示中文

虽然大部分情况下用的是英文，但对于某些特定的受众，还是需要展示中文。
为了在图表中能够显示中文和负号等，需要下面一段设置：

import matplotlib mpl
mpl.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
mpl.rcParams['axes.unicode_minus']=False #用来正常显示负号

设置matplotlib参数

两种方式更改参数：

使用参数字典
调用matplotlib.rc()命令通过传入关键字元组，修改参数
如果不想每次使用matplotlib时都在代码部分进行配置，可以修改matplotlib的文件参数。可以用matplot.get_config()命令来找到当前用户的配置文件目录。
配置文件包括以下配置项：
axex: 设置坐标轴边界和表面的颜色、坐标刻度值大小和网格的显示
backend: 设置目标暑促TkAgg和GTKAgg
figure: 控制dpi、边界颜色、图形大小、和子区( subplot)设置
font: 字体集（font family）、字体大小和样式设置
grid: 设置网格颜色和线性
legend: 设置图例和其中的文本的显示
line: 设置线条（颜色、线型、宽度等）和标记
patch: 是填充2D空间的图形对象，如多边形和圆。控制线宽、颜色和抗锯齿设置等。
savefig: 可以对保存的图形进行单独设置。例如，设置渲染的文件的背景为白色。
verbose: 设置matplotlib在执行期间信息输出，如silent、helpful、debug和debug-annoying。
xticks和yticks: 为x,y轴的主刻度和次刻度设置颜色、大小、方向，以及标签大小。

线条相关属性标记设置

线条风格

线条风格linestyle或ls	描述
‘-’	实线
‘–’	破折线
‘-.’	点划线
‘:’	虚线
‘None’,’ ‘,’’	什么都不画

线条标记

标记maker	描述
‘o’	圆圈
‘D’	菱形
‘h’	六边形1
‘H’	六边形2
‘_’	水平线
‘8’	八边形
‘p’	五边形
‘,’	像素
‘+’	加号
‘None’,’ ‘,’’	无
‘.’	点
‘s’	正方形
‘*’	星号
‘d’	小菱形
‘v’	一角朝下的三角形
‘<’	一角朝左的三角形
‘>’	一角朝右的三角形
‘^’	一角朝上的三角形
‘’	竖线
‘x’	X

颜色

可以通过调用matplotlib.pyplot.colors()得到matplotlib支持的所有颜色。

别名	颜色
b	蓝色
r	红色
c	青色
m	洋红色
g	绿色
y	黄色
k	黑色
w	白色

或者使用合法的HTML颜色名字（‘red’,'chartreuse’等）。
也可以传入一个归一化到[0,1]的RGB元祖。 color=(0.3,0.3,0.4)
很多方法可以介绍颜色参数，如title()。‘’

plt.tilte('Title in a custom color',color='#123456'）

指定背景色

通过向如matplotlib.pyplot.axes()或者matplotlib.pyplot.subplot()这样的方法提供一个axisbg参数，可以指定坐标这的背景色。

subplot(111,axisbg=(0.1843,0.3098,0.3098)

基础

如果你向plot()指令提供了一维的数组或列表，那么matplotlib将默认它是一系列的y值，并自动为你生成x的值。默认的x向量从0开始并且具有和y同样的长度，因此x的数据是[0,1,2,3].

确定坐标范围

plt.axis([xmin, xmax, ymin, ymax]) #给定坐标范围。
xlim(xmin, xmax)和ylim(ymin, ymax) #调整x,y坐标范围

例：

import numpy as np
import matplotlib.pyplot as plt
from pylab import *
x = np.arange(-5.0, 5.0, 0.02)
y1 = np.sin(x)
plt.figure(1)
plt.subplot(211)
plt.plot(x, y1)
plt.subplot(212)
#设置x轴范围
xlim(-2.5, 2.5)
#设置y轴范围
ylim(-1, 1)
plt.plot(x, y1)
plt.show()

叠加图

用一条指令画多条不同格式的线。

import numpy as np
import matplotlib.pyplot as plt
# evenly sampled time at 200ms intervals
t = np.arange(0., 5., 0.2)
# red dashes, blue squares and green triangles
plt.plot(t, t, 'r--', t, t**2, 'bs', t, t**3, 'g^')
plt.show()

plt.figure()

你可以多次使用figure命令来产生多个图，其中，图片号按顺序增加。这里，要注意一个概念当前图和当前坐标。所有绘图操作仅对当前图和当前坐标有效。通常，你并不需要考虑这些事，下面的这个例子为大家演示这一细节。

import matplotlib.pyplot as plt
plt.figure(1) # 第一张图
plt.subplot(211) # 第一张图中的第一张子图
plt.plot([1,2,3])
plt.subplot(212) # 第一张图中的第二张子图
plt.plot([4,5,6])
plt.figure(2) # 第二张图
plt.plot([4,5,6]) # 默认创建子图subplot(111)
plt.figure(1) # 切换到figure 1 ; 子图subplot(212)仍旧是当前图
plt.subplot(211) # 令子图subplot(211)成为figure1的当前图
plt.title('Easy as 1,2,3') # 添加subplot 211 的标题

plt.text()添加文字说明

text()可以在图中的任意位置添加文字，并支持LaTex语法
xlable(), ylable()用于添加x轴和y轴标签
title()用于添加图的题目

import numpy as np
import matplotlib.pyplot as plt
mu, sigma = 100, 15
x = mu + sigma * np.random.randn(10000)
# 数据的直方图
n, bins, patches = plt.hist(x, 50, normed=1, facecolor='g', alpha=0.75)
plt.xlabel('Smarts')
plt.ylabel('Probability')
#添加标题
plt.title('Histogram of IQ')
#添加文字
plt.text(60, .025, r'$\mu=100,\ \sigma=15$')
plt.axis([40, 160, 0, 0.03])
plt.grid(True)
plt.show()

text中前两个参数感觉应该是文本出现的坐标位置。

plt.annotate()文本注释

在数据可视化的过程中，图片中的文字经常被用来注释图中的一些特征。使用annotate()方法可以很方便地添加此类注释。在使用annotate时，要考虑两个点的坐标：被注释的地方xy(x, y)和插入文本的地方xytext(x, y)。

import numpy as np
import matplotlib.pyplot as plt
ax = plt.subplot(111)
t = np.arange(0.0, 5.0, 0.01)
s = np.cos(2*np.pi*t)
line, = plt.plot(t, s, lw=2)
plt.annotate('local max', xy=(2, 1), xytext=(3, 1.5),
arrowprops=dict(facecolor='black', shrink=0.05),
)
plt.ylim(-2,2)
plt.show()

效果如下：

python ipython用法 python运用_ci_02

plt.xticks()/plt.yticks()设置轴记号

人为设置坐标轴的刻度显示的值。

# 导入 matplotlib 的所有内容（nympy 可以用 np 这个名字来使用）
from pylab import *
# 创建一个 8 * 6 点（point）的图，并设置分辨率为 80
figure(figsize=(8,6), dpi=80)
# 创建一个新的 1 * 1 的子图，接下来的图样绘制在其中的第 1 块（也是唯一的一块）
subplot(1,1,1)
X = np.linspace(-np.pi, np.pi, 256,endpoint=True)
C,S = np.cos(X), np.sin(X)
# 绘制余弦曲线，使用蓝色的、连续的、宽度为 1 （像素）的线条
plot(X, C, color="blue", linewidth=1.0, linestyle="-")
# 绘制正弦曲线，使用绿色的、连续的、宽度为 1 （像素）的线条
plot(X, S, color="r", lw=4.0, linestyle="-")
plt.axis([-4,4,-1.2,1.2])
# 设置轴记号
xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi],
[r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'])
yticks([-1, 0, +1],
[r'$-1$', r'$0$', r'$+1$'])
# 在屏幕上显示
show()

效果：

python ipython用法 python运用_python ipython用法_03

plt.legend()添加图例

plot(X, C, color="blue", linewidth=2.5, linestyle="-", label="cosine")
plot(X, S, color="red", linewidth=2.5, linestyle="-", label="sine")
legend(loc='upper left')

matplotlib.pyplot

使用plt.style.use(‘ggplot’)命令，可以作出ggplot风格的图片。

# Import necessary packages
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')
from sklearn import datasets
from sklearn import linear_model
import numpy as np
# Load data
boston = datasets.load_boston()
yb = boston.target.reshape(-1, 1)
Xb = boston['data'][:,5].reshape(-1, 1)
# Plot data
plt.scatter(Xb,yb)
plt.ylabel('value of house /1000 ($)')
plt.xlabel('number of rooms')
# Create linear regression object
regr = linear_model.LinearRegression()
# Train the model using the training sets
regr.fit( Xb, yb)
# Plot outputs
plt.scatter(Xb, yb, color='black')
plt.plot(Xb, regr.predict(Xb), color='blue',
linewidth=3)
plt.show()

效果：

python ipython用法 python运用_MSE_04

给特殊点做注释

我们希望在 2π/32π/3 的位置给两条函数曲线加上一个注释。首先，我们在对应的函数图像位置上画一个点；然后，向横轴引一条垂线，以虚线标记；最后，写上标签。

from matplotlib.pyplot import *
import numpy as np
t = 2*np.pi/3
# 作一条垂直于x轴的线段，由数学知识可知，横坐标一致的两个点就在垂直于坐标轴的直线上了。这两个点是起始点。
plot([t,t],[0,np.cos(t)], color ='blue', linewidth=2.5, linestyle="--")
scatter([t,],[np.cos(t),], 50, color ='blue')
annotate(r'$\sin(\frac{2\pi}{3})=\frac{\sqrt{3}}{2}$',
xy=(t, np.sin(t)), xycoords='data',
xytext=(+10, +30), textcoords='offset points', fontsize=16,
arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2"))
plot([t,t],[0,np.sin(t)], color ='red', linewidth=2.5, linestyle="--")
scatter([t,],[np.sin(t),], 50, color ='red')
annotate(r'$\cos(\frac{2\pi}{3})=-\frac{1}{2}$',
xy=(t, np.cos(t)), xycoords='data',
xytext=(-90, -50), textcoords='offset points', fontsize=16,
arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2"))
show()

效果：

python ipython用法 python运用_ci_05

plt.subplot()

plt.subplot(2,3,1)表示把图标分割成2*3的网格。也可以简写plt.subplot(231)。其中，第一个参数是行数，第二个参数是列数，第三个参数表示图形的标号。

pyplot.pie参数

colors颜色

找出matpltlib.pyplot.plot中的colors可以取哪些值？
matplotlib学习之（四）设置线条颜色、形状

for name,hex in matplotlib.colors.cnames.iteritems():
  print name,hex

另参考：
1.绘图: matplotlib核心剖析 2.Matplotlib绘图双纵坐标轴设置及控制设置时间格式 3、Python–matplotlib绘图可视化知识点整理 4、matplotlib.pyplot.plot()参数介绍

用scikit-learn和pandas实现线性回归学习

导入库

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

读取数据

data = pd.read_csv('.\CCPP\ccpp.csv')

测试数据读取是否成功

#读取前五行数据，如果是最后五行，用data.tail()
data.head()

准备运行算法的数据

准备样本特征X，用AT， V，AP和RH这4个列作为样本特征

X = data[['AT', 'V', 'AP', 'RH']]
X.head()

准备样本输出y，用PE作为样本输出

y = data[['PE']]
y.head()

划分训练集和测试集

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

查看训练集和测试集的维度

print X_train.shape
print y_train.shape
print X_test.shape
print y_test.shape

运行scikit-learn的线性模型

scikit-learn的线性回归算法使用的是最小二乘法来实现的

from sklearn.linear_model import LinearRegression
linreg = LinearRegression()
linreg.fit(X_train, y_train)

拟合完毕后，我们看看我们的需要的模型系数结果：

print linreg.intercept_
print linreg.coef_

输出如下：

[ 447.06297099]
[[-1.97376045 -0.23229086  0.0693515  -0.15806957]]

这样我们就得到了在步骤1里面需要求得的5个值。也就是说PE和其他4个变量的关系如下：

PE=447.06297099−1.97376045∗AT−0.23229086∗V+0.0693515∗AP−0.15806957∗RH

模型评价

我们需要评估我们的模型的好坏程度，对于线性回归来说，我们一般用均方差（Mean Squared Error, MSE）或者均方根差(Root Mean Squared Error, RMSE)在测试集上的表现来评价模型的好坏。

查看模型的MSE和RMSE

#模型拟合测试集
y_pred = linreg.predict(X_test)
from sklearn import metrics
# 用scikit-learn计算MSE
print "MSE:",metrics.mean_squared_error(y_test, y_pred)
# 用scikit-learn计算RMSE
print "RMSE:",np.sqrt(metrics.mean_squared_error(y_test, y_pred))

输出如下：

MSE: 20.0804012021
RMSE: 4.48111606657

得到了MSE或者RMSE，如果我们用其他方法得到了不同的系数，需要选择模型时，就用MSE小的时候对应的参数。
比如我们用AT， V，AP这3个列作为样本特征。不要RH，输出仍然是PE。输出如下：

MSE: 23.2089074701
RMSE: 4.81756239919

可以看出，去掉RH后，模型拟合的没有加上RH的好，MSE变大了。

交叉验证

我们可以通过交叉验证来持续优化模型，代码如下，我们采用10折交叉验证，即cross_val_predict中的cv参数为10：

X = data[['AT', 'V', 'AP', 'RH']]
y = data[['PE']]
from sklearn.model_selection import cross_val_predict
predicted = cross_val_predict(linreg, X, y, cv=10)
# 用scikit-learn计算MSE
print "MSE:",metrics.mean_squared_error(y, predicted)
# 用scikit-learn计算RMSE
print "RMSE:",np.sqrt(metrics.mean_squared_error(y, predicted))

输出如下：

MSE: 20.7955974619
RMSE: 4.56021901469

可以看出，采用交叉验证模型的MSE比之前的大，主要原因是我们这里是对所有折的样本做测试集对应的预测值的MSE，而之前仅仅对25%的测试集做了MSE。两者的先决条件并不同。

画图观察结果

这里画图真实值和预测值的变化关系，离中间的直线y=x直接越近的点代表预测损失越低。

fig, ax = plt.subplots()
ax.scatter(y, predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

输出图像如下：

python ipython用法 python运用_ci_06

使用graphviz画关系图

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：flutter iOS底部 flutter inheritedwidget

下一篇：未找到pythondll 未找到引导设备

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯