总结
使用递归和循环两种方法来完成
python环境下循环相比于递归更快,更适应极端样本情况
递归
def _ema(arr,i=None):
N = len(arr)
α = 2/(N+1) #平滑指数
i = N-1 if i is None else i
if i==0:
return arr[i]
else:
data = 0
data += (α*arr[i]+(1-α)*EMA(arr,i-1)) #递归公式
return data
循环
def _ema(arr):
N = len(arr)
α = 2/(N+1)
data = np.zeros(len(arr))
for i in range(len(data)):
data[i] = arr[i] if i==0 else α*arr[i]+(1-α)*data[i-1] #从首开始循环
return data[-1]
主体
def EMA(arr,period=21):
data = np.full(arr.shape,np.nan)
for i in range(period-1,len(arr)):
data[i] = _ema(arr[i+1-period:i+1])
return data
耗时
样本为900长度的numpy.array:
递归保持在2.5ms附近,循环在1ms以内
当样本达到5000时
递归超过10ms,循环5ms左右
样本
python默认递归极限为1000,若样本数超过1000,则需要调高递归极限
import sys
sys.setrecursionlimit(10000)
调高递归极限至10000
引用
设置递归极限javascript:void(0)
Pandas(1.0.1)和talib对比
总结
talib计算一维样本速度快的令人发指…但是缺点是面对多维样本只能通过循环
pandas一维下虽然速度不及talib,但是10000的长度也只插了3ms左右,而且面对多维样本可以一步到位
Talib
import talibarr
data = talib.EMA(arr,timeperiod=21)
Pandas
import pandas as pd
def EMA(arr,period=21):
df = pd.DataFrame(arr)
return df.ewm(span=period,min_periods=period).mean()