llama3原始权重

转载

mob64ca13fa6a3c 2024-07-15 20:21:47

文章标签 llama3原始权重权重标准差神经网络 文章分类 深度学习人工智能

权重的初始化

在神经网络的学习中，权重的初始值特别重要。实际上，设定什么样的权重初始值经常关系到神经网络的学习能否成功。

1 可以将权重初始化为0吗

由于神经网络的学习可能会产生过拟合的效果。所谓过拟合就是对训练数据的预测准确度非常高，但应用到其它数据集上表现的结果则非常差，称之为泛化能力不好。

一般会通过一种权值衰减的方式抑制该问题，权值衰减是一种以减小权重参数的值为目的进行学习的方法。通过减小权重参数的值来抑制过拟合的发生。

如果想减小权重的值，一开始就将初始值设置为较小的值才是正途。实际上，原书之前的权重初始值都是下面这种方式。

0.01 * np.random.randn(size1, size2)

randn会生成标准差为1的高斯分布，乘以0.01之后，就得到标准差为0.01（方差是0.0001）的高斯分布。

如果直接把参数设为0会发生什么？实际上，这样会导致无法正确进行学习。

因为在误差反向传播算法中，所有的权重值都会进行相同的更新（可回顾误差反向传播实现方法）。因此，权重被更新为相同的值，这使得神经网络拥有许多不同的权重的意义丧失了。为了防止“权重均一化”（严格讲是为了瓦解权重的对称结果），建议使用随机生成的初始值。

2 隐藏层的激活值的分布

2.1 高斯分布初始化

接下来再考虑下，权重的初始化对隐藏层每层的临时输出的结果分布影响。

下面一个实验，向一个5层神经网络（激活函数使用sigmoid）传入随机生成的输入数据，用直方图绘制各层激活值的数据分布。

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
	return 1 / (1 + np.exp(-x))

x = np.random.randn(1000, 100) # 1000个数据
node_num = 100 			# 各隐藏层的节点数
hidden_layer_size = 5	# 隐藏层有5层
activations = {}		# 保存每层的临时输出

for i in range(hidden_layer_size):
	if i != 0:
		x = activations[i-1]

	# 注意这里采用标准差为1的高斯分布
	w = np.random.randn(node_num, node_num) * 1

	z = np.dot(x, w)
	a = sigmoid(z)	# sigmoid函数
	activations[i] = a

# 绘制直方图
for i, a in activations.items():
	plt.subplot(1, len(activations), i+1)
	plt.title(str(i+1) + "-layer")
	plt.hist(a.flatten(), 30, range=(0, 1))
plt.show()

llama3原始权重_标准差

由图可知，各层的激活值呈现偏向0和1的分布。这里使用的sigmoid函数是S型函数。

llama3原始权重_标准差_02

可以看到，随着输入不断靠近0（或者靠近1），它的导数的值逐渐接近0.因此，偏向0和1的数据分布会造成反向传播中梯度的值不断变小，最后消失，这个问题被称为梯度消失。层次越深的深度学习中，梯度消失的问题可能更加严重。

下面，将权重标准差设为0.01（主要就是18行位置），进行相同实验。

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
	return 1 / (1 + np.exp(-x))

x = np.random.randn(1000, 100) # 1000个数据
node_num = 100 			# 各隐藏层的节点数
hidden_layer_size = 5	# 隐藏层有5层
activations = {}		# 保存每层的临时输出

for i in range(hidden_layer_size):
	if i != 0:
		x = activations[i-1]

	# 注意这里换成标准差为0.01的高斯分布
	# w = np.random.randn(node_num, node_num) * 1
	w = np.random.randn(node_num, node_num) * 0.01

	z = np.dot(x, w)
	a = sigmoid(z)	# sigmoid函数
	activations[i] = a

# 绘制直方图
for i, a in activations.items():
	plt.subplot(1, len(activations), i+1)
	plt.title(str(i+1) + "-layer")
	plt.hist(a.flatten(), 30, range=(0, 1))
plt.show()

llama3原始权重_标准差_03

这次呈集中在0.5附近的分布。因为不像刚那样偏向0和1，因此不会发生梯度消失的问题。但是激活值仍有偏向，说明在表现力上会有问题。如果有多个神经元都输出几乎相同结果，那它们的意义就不大了，理论上也可以由一个神经元来表达这个基本相同的事情。因此激活值在分布上有所偏向会出现“表现力受限”的问题。

实际上，各层的激活值的分布都要求有适当的广度。因为通过在各层间传递多样性的数据，神经网络可以进行高效的学习。反过来，如果传递的是有所偏向的数据，就会出现梯度消失或者“表现力受限”的问题，导致学习可能无法顺利进行。

2.2 尝试Xavier初始值

Xavier的论文中，为了使各层的激活值呈现出具有相同广度的分布，推导了合适的权重尺度。推导出的结论是，如果前一层的节点数为n，则初始值使用标准差为

$\frac{1}{\sqrt{n}}$

的高斯分布。

llama3原始权重_llama3原始权重_05

使用Xavier初始值后，前一层的节点数越多，要设定为目标节点的初始值的权重尺度就越小。现在，使用Xavier初始值进行实验（注意19行）。

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
	return 1 / (1 + np.exp(-x))

x = np.random.randn(1000, 100) # 1000个数据
node_num = 100 			# 各隐藏层的节点数
hidden_layer_size = 5	# 隐藏层有5层
activations = {}		# 保存每层的临时输出

for i in range(hidden_layer_size):
	if i != 0:
		x = activations[i-1]

	# 这里使用Xavier初始值
	# w = np.random.randn(node_num, node_num) * 1
	# w = np.random.randn(node_num, node_num) * 0.01
	w = np.random.randn(node_num, node_num) / np.sqrt(node_num)

	z = np.dot(x, w)
	a = sigmoid(z)	# sigmoid函数
	activations[i] = a

# 绘制直方图
for i, a in activations.items():
	plt.subplot(1, len(activations), i+1)
	plt.title(str(i+1) + "-layer")
	plt.hist(a.flatten(), 30, range=(0, 1))
plt.show()

llama3原始权重_权重_06

由图可知，越往后面的层，图像具有更广度的分布。因为各层之间传递的数据具有适当的广度，所以sigmoid函数的表现力不受限制，有望进行高效的学习。

3 使用ReLU激活函数的权重初始值

前面的激活函数是sigmoid（换成tanh也可以，而且会有更好效果），如果换成ReLU之后再来看看权重的分布。

当激活函数换成ReLu时，一般推荐使用ReLU专用的初始值——“He初始值”。当前一层的节点数为n时，He初始值使用标准差为

$\sqrt{\frac{2}{n}}$

的高斯分布。

当使用ReLU作为激活函数时，看看四个实验（1.标准差为1的高斯分布，2.标准差为0.01的高斯分布，3.Xavier初始值，4.He初始值）的分布效果。

import numpy as np
import matplotlib.pyplot as plt

def ReLU(x):
	return np.maximum(0, x)

x = np.random.randn(1000, 100) # 1000个数据
node_num = 100 			# 各隐藏层的节点数
hidden_layer_size = 5	# 隐藏层有5层
activations = {}		# 保存每层的临时输出

for i in range(hidden_layer_size):
	if i != 0:
		x = activations[i-1]

	# 标准差为1的高斯分布
	# w = np.random.randn(node_num, node_num) * 1
	# 标准差为0.01的高斯分布
	# w = np.random.randn(node_num, node_num) * 0.01
	# Xavier初始值, 标准差为sqrt(1/n)的高斯分布
	# w = np.random.randn(node_num, node_num) / np.sqrt(node_num)
	# He初始值, 标准差为sqrt(2/n)的高斯分布
	w = np.random.randn(node_num, node_num) * np.sqrt(2/node_num)

	z = np.dot(x, w)
	a = ReLU(z)	# sigmoid函数
	activations[i] = a

# 绘制直方图
for i, a in activations.items():
	plt.subplot(1, len(activations), i+1)
	plt.title(str(i+1) + "-layer")
	plt.hist(a.flatten(), 30, range=(0, 1))
plt.show()

llama3原始权重_权重_08