博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深度学习中Xavier初始化
阅读量:5097 次
发布时间:2019-06-13

本文共 2106 字,大约阅读时间需要 7 分钟。

“Xavier”初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》。

文章主要的目标就是使得每一层输出的方差应该尽量相等。下面进行推导:每一层的权重应该满足哪种条件才能实现这个目标。

和方差相关的定理

假设有随机变量x和w,它们都服从均值为0,方差为σ的分布,且独立同分布,那么:

  • wx就会服从均值为0,方差为σσ的分布
  • wx+wx就会服从均值为0,方差为2σσ的分布

文章实验用的激活函数是tanh激活函数,函数形状如下左图,右图是其导数的函数形状。

激活函数

从上图可以看出,当x处于0附近时,其导数/斜率接近与1,可以近似将其看成一个线性函数,即f(x)=x。

假设输入数据的均值为o,方差为\(\delta_x\),如果第一层是卷基层,卷基层共n个参数,\(n=C*k_h*k_w\),于是有:

\[z_j= \sum_{i}^{n}{w_i*x_i}\]

其中,忽略偏置b

假设x和w是独立同分布,则\(Var(z)=n*\delta_x*\delta_w\),为了更好地表达,将层号放在变量上标处:

\[\delta_x^2=n^1*\delta_x^1*\delta_w^1\]

全连接和卷积层都可以看做是n个参数的线性变换,进而有:\(\delta_x^3=n^2*\delta_x^2*\delta_w^2\),如果k层的网络,有:

\[\delta_x^k=n^{k-1}*\delta_x^{k-1}*\delta_w^{k-1} =n^{k-1}*n^{k-2}*\delta_x^{k-2}*\delta_w^{k-2}*\delta_w^{k-1} =\delta_x^1*\prod_{i=1}^{k-1}{(n^i*\delta_w^i)}\]

从上式中可以看出,后面的连乘是很危险的,如果\(n^i*\delta_w^i\)总是大于1,最后的方差为越来越大;如果乘机小于1,最后的方差就越来越小。所以我们回头再看第一个公式:

\[\delta_x^2=n^1*\delta_x^1*\delta_w^1\]
如果满足\(\delta_x^2=\delta_x^1\),即保证输出方差和输出方差一直便可以避免上述问题,得到:
\[\delta_w^1=\frac{1}{n^1}\]

对于任意一层i,应该满足:

\[\delta_w^i=\frac{1}{n^i}\]
\(n^i\)是w参数的输入层。

反向传播的情况

假设第k层的梯度为\(\frac{\partial{Loss}}{\partial{x_j^k}}\),对于第k-1层,有:

\[\frac{\partial{Loss}}{\partial{x_j^{k-1}}} = \sum_{i=1}^{n}{\frac{\partial{Loss}}{\partial{x_i^k}}*w_j^{ki}}\]

这里的参数n表示的是输出端的数目。

如果每层的方差服从均值为o,方差为某值的分布,有:

\[Var(\frac{\partial{Loss}}{\partial{x_j^{k-1}}})= n^k*Var(\frac{\partial{Loss}}{\partial{x_i^k}})*\delta_w^k\]
对于k层的网络,可以推导得到:
\[Var(\frac{\partial{Loss}}{\partial{x_j^{1}}} =Var(\frac{\partial{Loss}}{\partial{x_i^k}})* \prod_{2}^{k}{(n^i*\delta_w^i)} \]
上式的连乘同样危险,所以我们取\(Var(\frac{\partial{Loss}}{\partial{x_j^{k-1}}}) = Var(\frac{\partial{Loss}}{\partial{x_i^k}})\)
故:
\[\delta_w^k = \frac{1}{n^k}\]
这里的n表示输出的维度

为了均衡考虑,我们设置方差应该满足

\[\delta_w^k=\frac{2}{n^k+n^{k+1}}\]

实际应用

论文提出使用均匀分布进行初始化,我们设定权重要初始化的范围是[-a,a]。而均匀分布的方差为:

\[Var(uniform)=\frac{(a-(-a))^2}{12}=\frac{a^2}{3}=\delta_w^k\]

所以:

\[a=\sqrt{\frac{6}{n^k+n^{k+1}}}\]
这就是xavier初始化方法,即把参数初始化成下面范围内的均匀分布:
\[[-\sqrt{\frac{6}{n^k+n^{k+1}}}, \sqrt{\frac{6}{n^k+n^{k+1}}}]\]

转载于:https://www.cnblogs.com/houkai/p/10160682.html

你可能感兴趣的文章
JavaScript总结(二)
查看>>
趣图:前后端分离开发
查看>>
EF6学习笔记十九:不一样的复杂类型
查看>>
UITableView 的用法
查看>>
http://jingyan.baidu.com/article/dca1fa6fa07000f1a44052f6.html
查看>>
第三方支付架构设计之—帐户体系
查看>>
诸城项目-开发日志
查看>>
fdisk (二) 详解(转)
查看>>
hdu 2768 Cat vs. Dog 最大独立集 巧妙的建图
查看>>
简单将集合的内容转为字符串
查看>>
Python pandas 0.19.1 Intro to Data Structures 数据结构介绍 文档翻译
查看>>
《寿康宝鉴》
查看>>
CentOS7下安装jdk8环境
查看>>
Mongodb
查看>>
struts2 DMI
查看>>
管道和I/O重定向
查看>>
django重点url,视图函数,模板语言
查看>>
Base64编码与图片互转
查看>>
bzoj 3997 Dilworth定理
查看>>
web在线页面编辑实现-abtest可视化实验
查看>>