Numpy 是一个开源的 Python 科学计算库,它是 python 科学计算库的基础库,许多其他著名的科学计算库如Pandas,Scikit-learn 等都要用到 Numpy 库的一些功能。
Numpy 中的多维数组称为 ndarray,这是 Numpy 中最常见的数组对象。ndarray 对象通常包含两个部分:
• ndarray 数据本身
• 描述数据的元数据
Numpy 数组的优势
• Numpy 数组通常是由相同种类的元素组成的,即数组中的数据项的类型一致。这样有一个好处,由于知道数组元素的类型相同,所以能快速确定存储数据所需空间的大小。
• Numpy 数组能够运用向量化运算来处理整个数组,速度较快;而 Python 的列表则通常需要借助循环语句遍历列表,运行效率相对来说要差。
• Numpy 使用了优化过的 C API,运算速度较快
关于向量化和标量化运算,对比下面的参考例子就可以看出差异
• 使用 python 的 list 进行循环遍历运算
import numpy
from timeit import timeit
from timeit import Timer
import numpy as np
def pySum():
a = list(range(100))
b = list(range(100))
c = []
for i in range(len(a)):
c.append(a[i]**2 + b[i]**2)
print('---------')
return c
timer1 = Timer("pySum()", "from __main__ import pySum")
print("timer1+:", timer1.timeit())
运行结果:
下面使用 numpy 进行向量化运算
def npSum():
a = np.arange(100)
b = np.arange(100)
c = a**2 + b**2
return c
timer2 = Timer("npSum()", "from __main__ import npSum")
print("timer2+:", timer2.timeit())
运行结果:
从上面的运行结果可以看出,numpy 的向量化运算的效率要远远高于 python 的循环遍历运算。