Numpy工具包中的RandomState常常用在生成随机的模拟数据集。用法如下:

from numpy.random import RandomState
rng = RandomState(1)
seq = rng.uniform(0, 1, (2, 3))
print(seq)

result:

[[4.17022005e-01 7.20324493e-01 1.14374817e-04]
[3.02332573e-01 1.46755891e-01 9.23385948e-02]]

作用:产生一个2行3列的seq,其中的每个元素都是[0,1]区间的均匀分布的随机数

RandomState(1)中的数字1,它是伪随机数产生器的种子,也就是“the starting point for a sequence of pseudorandom number”
对于某一个伪随机数发生器,只要该种子(seed)相同,产生的随机数序列就是相同的

验证:

for i in range(1, 4):
rng = np.random.RandomState(123)
array = rng.uniform(1, 2, (2, 3))
print("array" + str(i) +" = \n{}".format(array))

result:

array1 = 
[[1.69646919 1.28613933 1.22685145]
[1.55131477 1.71946897 1.42310646]]
array2 =
[[1.69646919 1.28613933 1.22685145]
[1.55131477 1.71946897 1.42310646]]
array3 =
[[1.69646919 1.28613933 1.22685145]
[1.55131477 1.71946897 1.42310646]]

可以看到,每次循环产生的伪随机数都是相同的,这是由于每次伪随机数发生器的种子都是相同的

for i in range(1, 4):
rng = np.random.RandomState(123 + i)
array = rng.uniform(1, 2, (2, 3))
print("array" + str(i) +" = \n{}".format(array))

result:

array1 = 
[[1.10606491 1.74547148 1.57231354]
[1.45824118 1.3847059 1.27398931]]
array2 =
[[1.50672601 1.0575307 1.62757999]
[1.13255253 1.13108515 1.78854401]]
array3 =
[[1.10517213 1.12814407 1.08740631]
[1.11547856 1.74772762 1.38304572]]

这里,我们做了一个小小的更改,每次循环的种子都加入了i,由于每次循环i值不同,导致每次循环的种子也不同

tensorflow中的常见用法

TensorFlow常常用到RandomState来生成训练虚拟随机数据

训练集X

rng = numpy.random.RandomState(1)
dataset_size = 128
X = rng.rand(dataset_size, 2) # 生成128个两个特征的行向量

训练集X的label-> Y

大部分解决分类问题的神经网络都会以0,1分类

Y = [[int(x1+x2 < 1)] for (x1, x2) in X]