失效链接处理 |
深度学习(fn)面试?囑փ法 DOC 下蝲
相关截图Q?/strong>
![]()
主要内容Q?/strong>
1.2Z?span style="font-family: Calibri;">ReLU常用于神l网l的Ȁzd敎ͼ 1.?/span>前向传播?/span>反向传播q程中,ReLU相比?span style="font-family: Calibri;">Sigmoid{激zd?/span>计算量小Q?/span> 2.避免梯度消失问题。对于深层网l,Sigmoid函数反向传播Ӟ很容易就?x)出?/span>梯度消失问题Q在Sigmoid接近饱和区时Q变换太~慢Q导数趋?span style="font-family: Calibri;">0Q这U情况会(x)造成信息丢失Q,从而无法完成深层网l的训练?/span> 3.可以~解q拟合问?/strong>的发生?span style="font-family: Calibri;">Relu?x)一部分经元的输出?span style="font-family: Calibri;">0Q这样就造成了网l的E疏性,q且减少了参数的怺依存关系Q缓解了q拟合问题的发生?/span> 4.相比Sigmoid型函敎ͼReLU函数有助于随机梯度下降方?/span>收敛?/span> Z么需要激zd能? Ȁzd数是用来加入非线?/u>因素的,因ؓ(f)U性模型的表达能力不够?/span> 1.3 梯度消失和梯度爆?/a>的解x案?梯度爆炸引发的问题? 梯度消失Q靠q输出层?/span>hidden layer 梯度大,参数更新快,所以很快就?x)收敛?/span> 而靠q输入层?/span>hidden layer 梯度,参数更新慢,几乎和初始状态一P随机分布?/span> 另一U解释:(x)?/span>反向传播q行很多层的时候,׃每一层都对前一层梯度乘以了一个小敎ͼ因此往前传递,梯度׃(x)小Q训l越慢?/span> 梯度爆炸Q前?/span>layer的梯度通过训练变大Q而后?/span>layer的梯?/span>指数U增?/span>?/span> ?/strong>?/span>深度多层感知?/strong>(MLP)|络中,梯度爆炸?x)引?/span>|络不稳?/u>Q最好的l果是无法从训练数据中学?fn),而最坏的l果是出现无法再更新?nbsp;NaN 权重倹{?/span> ?/strong>?/span>RNN中,梯度爆炸?x)导致网l不E_Q?/span>无法利用训练数据学习(fn)Q最好的l果是网l?/span>无法学习(fn)长的输入序列数据
|