总结

使用递归和循环两种方法来完成
python环境下循环相比于递归更快,更适应极端样本情况


递归

def _ema(arr,i=None):
    N = len(arr) 
    α = 2/(N+1) #平滑指数
    i = N-1 if i is None else i
    if i==0:
        return arr[i]
    else:
        data = 0 
        data += (α*arr[i]+(1-α)*EMA(arr,i-1))  #递归公式
        return data

循环

def _ema(arr):
    N = len(arr)
    α = 2/(N+1)
    data = np.zeros(len(arr))
    for i in range(len(data)):
        data[i] = arr[i] if i==0 else α*arr[i]+(1-α)*data[i-1]  #从首开始循环
    return data[-1]

主体

def EMA(arr,period=21):
    data = np.full(arr.shape,np.nan)
    for i in range(period-1,len(arr)):
        data[i] = _ema(arr[i+1-period:i+1])
    return data

耗时

样本为900长度的numpy.array:
递归保持在2.5ms附近,循环在1ms以内

当样本达到5000时
递归超过10ms,循环5ms左右

样本

python默认递归极限为1000,若样本数超过1000,则需要调高递归极限

import sys
sys.setrecursionlimit(10000)

调高递归极限至10000


引用

设置递归极限javascript:void(0)




Pandas(1.0.1)和talib对比

总结

talib计算一维样本速度快的令人发指…但是缺点是面对多维样本只能通过循环
pandas一维下虽然速度不及talib,但是10000的长度也只插了3ms左右,而且面对多维样本可以一步到位

Talib

import talibarr
data = talib.EMA(arr,timeperiod=21)

Pandas

import pandas as pd
def EMA(arr,period=21):
    df = pd.DataFrame(arr)
    return df.ewm(span=period,min_periods=period).mean()