python 数理统计库

原创

mob64ca12f290b0 2023-08-30 04:53:21 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f290b0的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python数理统计库简介与示例

引言

随着数据分析和机器学习的快速发展，数理统计成为了重要的工具之一。Python作为一门广泛应用于数据科学领域的编程语言，在数理统计方面也有着丰富的库。本文将为大家介绍Python中常用的数理统计库，并提供一些代码示例，帮助读者更好地理解和应用这些库。

scipy

scipy是Python中非常强大的科学计算库，其中包含了许多数理统计相关的功能。下面是一个使用scipy库进行概率密度函数拟合和随机变量模拟的示例：

import numpy as np
from scipy import stats

# 生成服从正态分布的随机数据
data = np.random.normal(size=1000)

# 使用拟合函数拟合数据，得到拟合的参数
params = stats.norm.fit(data)

# 根据拟合的参数生成概率密度函数
pdf = stats.norm.pdf(data, *params)

# 绘制原始数据和拟合的概率密度函数
import matplotlib.pyplot as plt
plt.hist(data, bins=30, density=True, alpha=0.5)
plt.plot(data, pdf, 'r-', lw=2)
plt.show()

在上述代码中，我们首先使用np.random.normal生成了1000个服从正态分布的随机数据。然后，使用stats.norm.fit函数拟合这些数据，得到了拟合的参数。接下来，使用stats.norm.pdf函数根据拟合的参数生成了概率密度函数。最后，使用matplotlib.pyplot库绘制了原始数据的直方图和拟合的概率密度函数。

pandas

pandas是Python中用于数据分析的重要库，其中也包含了一些数理统计的功能。下面是一个使用pandas库进行描述性统计和相关性分析的示例：

import pandas as pd

# 创建一个包含随机数的数据框
data = pd.DataFrame(np.random.randn(100, 3), columns=['A', 'B', 'C'])

# 查看数据的描述性统计信息
print(data.describe())

# 计算数据的相关系数矩阵
print(data.corr())

在上述代码中，我们首先创建了一个包含100行和3列的数据框，其中的元素是随机生成的标准正态分布的随机数。然后，使用data.describe()函数可以快速查看数据的描述性统计信息，包括均值、标准差、最小值、最大值等。接下来，使用data.corr()函数计算了数据的相关系数矩阵，可以用来衡量不同变量之间的线性关系。

matplotlib

matplotlib是一个用于绘制图表和可视化数据的库，也可以用于绘制各种数理统计相关的图形。下面是一个使用matplotlib库绘制正态分布图和散点图的示例：

import matplotlib.pyplot as plt
from scipy import stats

# 绘制正态分布图
x = np.linspace(-5, 5, 100)
y = stats.norm.pdf(x, 0, 1)
plt.plot(x, y, 'r-', lw=2)
plt.xlabel('x')
plt.ylabel('Probability density')
plt.title('Normal Distribution')
plt.show()

# 绘制散点图
x = np.random.normal(size=100)
y = np.random.normal(size=100)
plt.scatter(x, y)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Scatter Plot')
plt.show()

在上述代码中，我们首先使用np.linspace生成了一个从-5到5的等间隔的100个点，然后使用stats.norm.pdf函数计算了这些点上的正态分布的概率密度值，最后使用matplotlib.pyplot库绘制了正态分布图。接下来，使用np.random.normal生成了100个服从正态分布的随机数，并使用matplotlib.pyplot库绘制了散点图。