一、

在利用python处理数据的时候,经常会用到numpy API:

np.random.seed() 与 np.random.RandomState()

但这两个函数的用法,一直不太好理解。在网上查找了许多文章,研究了下他们的异同。做个记录。

1,np.random.seed()

设置seed()里的数字就相当于设置了一个盛有随机数的“聚宝盆”,一个数字代表一个“聚宝盆”。

当在seed()的括号里设置相同的seed,“聚宝盆”就是一样的,当然每次拿出的随机数就会相同。

如果不设置seed,则每次会生成不同的随机数,但是有时候明明设置了seed()没有变,生成的随机数组还是不同。

np.random.seed(0)
a = np.random.rand(10)
b = np.random.rand(10)
print(a)
print("\n")
print(b)


#输出结果
[0.5488135  0.71518937 0.60276338 0.54488318 0.4236548  0.64589411
 0.43758721 0.891773   0.96366276 0.38344152]


[0.79172504 0.52889492 0.56804456 0.92559664 0.07103606 0.0871293
 0.0202184  0.83261985 0.77815675 0.87001215]

设置了seed没变,但是输出不一样。

其实,第二遍的np.random.rand(10)已经不是在之前设置的np.random.seed(0)下了,所以第二遍的随机数组只是在默认random下随机挑选的样本数值。

那如何让两次随机数组一样?

只需要再输入一遍np.random.seed(0)。

np.random.seed(0)
a = np.random.rand(4,3)

np.random.seed(0)
b =  np.random.rand(4,3)

print(a)
print("\n")
print(b)


#输出
[[0.5488135  0.71518937 0.60276338]
 [0.54488318 0.4236548  0.64589411]
 [0.43758721 0.891773   0.96366276]
 [0.38344152 0.79172504 0.52889492]]


[[0.5488135  0.71518937 0.60276338]
 [0.54488318 0.4236548  0.64589411]
 [0.43758721 0.891773   0.96366276]
 [0.38344152 0.79172504 0.52889492]]

用两个自定义函数举例,进一步理解下np.random.seed()的用法

def rng():
    for i in range(5):
        np.random.seed(123)
        print(np.random.rand(4))

rng()


#输出
[0.69646919 0.28613933 0.22685145 0.55131477]
[0.69646919 0.28613933 0.22685145 0.55131477]
[0.69646919 0.28613933 0.22685145 0.55131477]
[0.69646919 0.28613933 0.22685145 0.55131477]
[0.69646919 0.28613933 0.22685145 0.55131477]



def rng2():
    np.random.seed(123)
    for i in range(5):
        print(np.random.rand(4))
        
rng2()


#输出
[0.69646919 0.28613933 0.22685145 0.55131477]
[0.71946897 0.42310646 0.9807642  0.68482974]
[0.4809319  0.39211752 0.34317802 0.72904971]
[0.43857224 0.0596779  0.39804426 0.73799541]
[0.18249173 0.17545176 0.53155137 0.53182759]

 

2,np.random.RandomState()

numpy.random.RandomState()是一个伪随机数生成器, 此命令将会产生一个随机状态种子,在该状态下生成的随机序列(正态分布)一定会有相同的模式。

伪随机数是用确定性的算法计算出来的似来自[0,1]均匀分布的随机数序列。并不真正的随机,但具有类似于随机数的统计特征,如均匀性、独立性等。(来自百度)

 

但是,不同的随机种子状态将会有不同的数据生成模式。这一特点在随机数据生成的统计格式控制显得很重要。

np.random.RandomState()跟numpy.random.seed()的用法几乎一样。

rng = np.random.RandomState(0)
a = rng.rand(4)

rng = np.random.RandomState(0)
b = rng.rand(4)

print(a)
print("\n")
print(b)

#输出
[0.5488135  0.71518937 0.60276338 0.54488318]


[0.5488135  0.71518937 0.60276338 0.54488318]

生成一样的随机数组,这点和numpy.random.seed()是一样的因为是伪随机数,所以必须在rng这个变量下使用,如果不这样做,就得不到相同的随机数组。

即便再次输入numpy.random.RandomState(),这是因为np.random.rand()在默认状态下,是从默认随机数组里挑出的随机样本

rng = np.random.RandomState(0)
a = rng.randn(4)
b = rng.randn(4)

print(a)
print(b)

#输出
[1.76405235 0.40015721 0.97873798 2.2408932 ]
[ 1.86755799 -0.97727788  0.95008842 -0.15135721]

同样用用两个自定义函数举例,进一步理解下np.random.RandomState()的用法

def rng1():
    for i in range(4):
        rng = np.random.RandomState(0)
        print("i = ",i)
        print(rng.rand(3,2))
rng1()


#输出
i =  0
[[0.5488135  0.71518937]
 [0.60276338 0.54488318]
 [0.4236548  0.64589411]]
i =  1
[[0.5488135  0.71518937]
 [0.60276338 0.54488318]
 [0.4236548  0.64589411]]
i =  2
[[0.5488135  0.71518937]
 [0.60276338 0.54488318]
 [0.4236548  0.64589411]]
i =  3
[[0.5488135  0.71518937]
 [0.60276338 0.54488318]
 [0.4236548  0.64589411]]




def rng3():
    rng =np.random.RandomState(0)
    for i in range(4):
        print("i = ",i)
        print(rng.rand(3,2))
rng3()

#输出
i =  0
[[0.5488135  0.71518937]
 [0.60276338 0.54488318]
 [0.4236548  0.64589411]]
i =  1
[[0.43758721 0.891773  ]
 [0.96366276 0.38344152]
 [0.79172504 0.52889492]]
i =  2
[[0.56804456 0.92559664]
 [0.07103606 0.0871293 ]
 [0.0202184  0.83261985]]
i =  3
[[0.77815675 0.87001215]
 [0.97861834 0.79915856]
 [0.46147936 0.78052918]]

 

编辑于 2020-11-06

问题

在很多情况下我们都能看到代码里有这样一行:

torch.backends.cudnn.benchmark = true

1

torch.backends.cudnn.benchmark = true

而且大家都说这样可以增加程序的运行效率。那到底有没有这样的效果,或者什么情况下应该这样做呢?

解决办法

总的来说,大部分情况下,设置这个 flag 可以让内置的 cuDNN 的 auto-tuner 自动寻找最适合当前配置的高效算法,来达到优化运行效率的问题。

一般来讲,应该遵循以下准则:

  1. 如果网络的输入数据维度或类型上变化不大,设置  torch.backends.cudnn.benchmark = true  可以增加运行效率;
  2. 如果网络的输入数据在每次 iteration 都变化的话,会导致 cnDNN 每次都会去寻找一遍最优配置,这样反而会降低运行效率。

这下就清晰明了很多了。

 


为什么使用相同的网络结构,跑出来的效果完全不同,用的学习率,迭代次数,batch size 都是一样?固定随机数种子是非常重要的。但是如果你使用的是PyTorch等框架,还要看一下框架的种子是否固定了。还有,如果你用了cuda,别忘了cuda的随机数种子。这里还需要用到torch.backends.cudnn.deterministic.

torch.backends.cudnn.deterministic是啥?顾名思义,将这个 flag 置为True的话,每次返回的卷积算法将是确定的,即默认算法。如果配合上设置 Torch 的随机种子为固定值的话,应该可以保证每次运行网络的时候相同输入的输出是固定的,代码大致这样

def init_seeds(seed=0):
    torch.manual_seed(seed) # sets the seed for generating random numbers.
    torch.cuda.manual_seed(seed) # Sets the seed for generating random numbers for the current GPU. It’s safe to call this function if CUDA is not available; in that case, it is silently ignored.
    torch.cuda.manual_seed_all(seed) # Sets the seed for generating random numbers on all GPUs. It’s safe to call this function if CUDA is not available; in that case, it is silently ignored.

    if seed == 0:
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False