好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

神经网络设计.ppt

98页
  • 卖家[上传人]:鲁**
  • 文档编号:592191131
  • 上传时间:2024-09-19
  • 文档格式:PPT
  • 文档大小:2.17MB
  • / 98 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 11神经网络设计 12生物学的启示•人脑具有巨大的并行计算能力    – 大脑约有1011个神经元    – 每个神经元约有104个连接 •神经元相对于电子线路要慢许多    – 10-3 秒相对于10-9 秒 树突(输入)轴突(输出)突触(权)细胞体 13神经元模型和网络结构 14单输入神经元输入通用神经元 15传输函数(激活函数) 16传输函数(激活函数)  17多输入神经元简化符号 18神经元的层输入S个神经元的层 19简化符号Ww1 1,w1 2,¼ w1 R,w2 1,w2 2,¼ w2 R,wS 1,wS 2,¼ wS R,=b12S=bbbpp1p2pR=aa1a2aS= 110多层网络 111简化符号Hidden LayersOutput Layer隐层输出层 112感知机学习规则 113学习的分类• 有监督学习(有导师学习)提供网络一组能代表网络行为的实例集合(训练集):• 增强学习(半监督学习)仅提供一个级别(或评分),作为网络在某些输 入序列上的性能测度• 无监督学习(无导师学习)学习仅根据网络的输入来学会将输入模式分类(聚类)输入,目标输出) 114感知机的结构Ww1 1,w1 2,¼ w1 R,w2 1,w2 2,¼ w2 R,wS 1,wS 2,¼ wS R,=wiwi 1,wi 2,wi R,=WwT1wT2wTS= 115单个神经元感知机工作原理判定边界:n=w1,1p1 +w1,2p2 +b =0 116单个神经元感知机工作原理p1 + p2 –1 = 0 117判定边界• 所有在判定边界上的点与权向量的内积相同。

      • 这些点一定是在一条与权向量垂直的线上 118例子 – “或(OR)” 119“或”的解答(图解法)• 选择一个判定边界,把两类模式向量分割在两个区能够实现这种划分的边界有无穷多个合理的选择是判定边界易于确定,且处于这两类模式向量的间隔正中• 在判定边界上取一点(0, 0.5)来定偏值:• 选择与判定边界垂直的权向量,该权向量可以是任意长度向量,它同样有无穷多个这里选择: 120“或”的解答(图解法)•方程的法向量是权向量 (与判定边界垂直):•方程的常数项是判定边界的偏置值:• 两点式直线方程:  例如点(x1 , y1)和(x2, y2):• 选一个判定边界及其上的两点得其方程:      例如点(0.5, 0)和(0, 0.5)  121多神经元感知机• 每个神经元将有自己的判定边界:• 单个神经元可以将输入向量分为两类• 一个有S个神经元的感知机可将输入向  量分为多类,共有2S种可能的类别 122感知机学习规则• 为满足给定的训练样本:• 设计一般性的方法来确定感知机的权和偏置值 123学习规则测试实例测试问题的网络 124初始化将p1送入网络:随机初始化权:错误分类 125构造学习规则• 令1w 为 p1– 前后振荡• 将p1加到1w上上– 1w的指向偏向p1规则: 126第二个输入向量(错误分类,见前图)修正规则: 127第三个输入向量三个模式现在都正确分类了(错误分类,见前图) 128统一的学习规则偏置可视为对应输入为1 的权 129多神经元感知机权值矩阵的第i行修改为:矩阵表示: 130苹果/香蕉例子训练集:初始权值:第一次迭代:et1a–10–1=== 131第二次迭代 132检查 133学习规则的能力• 只要权值的解存在(问题线性可分),  该学习规则总能收敛到实现期望分类的   权值上。

      134感知机的局限性线性判定边界解决不了线性不可分问题 135有导师的Hebb学习 136Hebb规则突触前的信号突触后的信号简化形式        无导师的形式:有导师的形式:矩阵形式:学习速度常数(设α=1) 137线性联想器训练集:线性层输入 138批操作¼Wt1t2¼tQp1Tp2TpQTTPT==Tt1t2¼tQ=Pp1p2¼pQ=矩阵形式:(权矩阵初始化为0) 139性能分析0qk¹=情况1,输入向量为标准正交向量:所以网络输出等于相应的目标输出:情况2,输入向量标准化了但不正交:误差 140例子香蕉苹果归一化原型模式权矩阵(Hebb 规则):测试:香蕉苹果 141仿逆规则 - (1)Tt1t2¼tQ=Pp1p2¼pQ=||E||2eij2jåiå=性能参数:矩阵形式: 142仿逆规则 - (2)最小化:若矩阵P的逆存在, 可以使得F(W)为零:当逆阵不存在,F(W) 可以用仿逆规则最小化:当矩阵P的行数R大于其列数Q,且P的列向量线性无关时,其仿逆为: 143与Hebb规则的关系WTPT=Hebb规则仿逆规则如果原型模式正交: 144例子 145性能曲面和最优点 146性能学习性能学习的优化分两步骤两步骤进行:(1)找一个衡量网络性能的定量标准,即性能指数:找一个衡量网络性能的定量标准,即性能指数:F(x)。

      性性能指数在网络性能良好时很小,反之则很大能指数在网络性能良好时很小,反之则很大2)搜索减小性能指数的参数空间搜索减小性能指数的参数空间(调整网络权值和偏置值调整网络权值和偏置值)下面将研究性能曲面的特性,建立确保极小点下面将研究性能曲面的特性,建立确保极小点(即所寻求即所寻求的最优点的最优点)存在的条件存在的条件学习规则的几种类型:联想学习,竞争学习,性能学习性能学习目的在于调整网络参数以优化网络性能性能学习目的在于调整网络参数以优化网络性能 147Taylor级数展开F x( )F x*()xddF x( )xx*=xx*–()+=12-- -x22ddF x( )xx*=xx*–()2¼++1n!---- -xnnddF x( )xx*=xx*–()n¼++ 148例子Taylor级数的近似表示:F(x) 在x* = 0点的Taylor级数展开式为 :0阶近似:1阶近似:2阶近似: 149三个近似的图形 150向量情况Fx( )Fx*()x1¶¶Fx( )xx*=x1x1*–()x2¶¶Fx( )xx*=x2x2*–()++=¼xn¶¶Fx( )xx*=xnxn*–()12-- -x122¶¶Fx( )xx*=x1x1*–()2+++12-- -x1x2¶2¶¶Fx( )xx*=x1x1*–() x2x2*–()¼++ 151矩阵形式Fx( )Fx*()Fx( )ÑTxx*=xx*–()+=12-- -xx*–()TFx( )xx*=xx*–()Ñ2¼++Fx( )Ñx1¶¶Fx( )x2¶¶Fx( )¼xn¶¶Fx( )=Fx( )Ñ2x122¶¶Fx( )x1x2¶2¶¶Fx( ) ¼x1xn¶2¶¶Fx( )x2x1¶2¶¶Fx( )x222¶¶Fx( )¼x2xn¶2¶¶Fx( )¼¼¼xnx1¶2¶¶Fx( )xnx2¶2¶¶Fx( ) ¼xn22¶¶Fx( )=梯度Hessian矩阵 152方向导数F(x)沿xi轴的一阶导数(斜率):F(x)沿xi轴的二阶导数(曲率): (梯度的第i个元素)(Hessian矩阵的第i,i 处的元素)pTFx( )Ñp---------------------- -F(x)沿向量p 的一阶导数(斜率):F(x)沿向量p 的二阶导数(曲率): pTFx( )Ñ2pp2----------------------------- - 153极小点点x*是F(x)的强极小点,如果存在某个纯量d > 0, 使得当d > ||Dx|| > 0 时,对所有Dx都有F(x*) < F(x* + Dx)成立。

      -- 强极小点:强极小点:点x*是F(x)的唯一全局极小点,如果F(x*) < F(x* + Dx)对所有Dx≠0都成立-- 全局极小点:全局极小点:点x*是F(x)的弱极小点,如果它不是一个强极小点,且存在某个纯量d > 0, 使得当d > ||Dx|| > 0 时,对所有Dx都有F(x*)≦ F(x* + Dx)成立-- 弱极小点:弱极小点: 154例子Strong MinimumStrong MaximumGlobal Minimum 155向量例子 156一阶优化的必要条件Fx( )Fx*Dx+()Fx*()Fx( )ÑTxx*=Dx+==12-- -DxTFx( )xx*=DxÑ2¼++对很小的Dx::如果x*是个极小点, 则要求:如果则有这与x*是极小点相矛盾,所以唯一的选择只有该式对所有的该式对所有的D Dx都必须成立都必须成立D Dx,,即即驻点驻点:使得梯度为零的点称为驻点(稳定点)一个极小点一定为驻点,这是局部            极小点的一阶必要条件(不是充分条件) 157二阶条件在x* 将存在强极小点,如果对所有Dx ≠ 0成立Hessian矩阵正定是强极小点存在的二阶充分充分条件。

      一个矩阵A A是半正定的,如果任意向量z,有: 如果一阶条件满足(梯度为0), 则有一个矩阵A A是正定的,如果对任意向量z ≠ 0,有:可以通过检验矩阵的特征值来检验这些条件如果矩阵所有特征值为正,则矩阵为正定矩阵;如果矩阵所有特征值非负,则矩阵为半正定矩阵Hessian矩阵半正定是强极小点存在的二阶必要必要条件 158例子Fx( )x122x1x22x22x1+++=(不是x的函数)检查上述Hessian矩阵的特征值来检验正定性如果特征值全都大于零,则该矩阵是正定的两个特征值是正定的, 所以x*是强极小点 159二次函数梯度的性质:梯度和Hessian矩阵: 二次函数的梯度:二次函数的Hessian矩阵:(A是对称矩阵) 160二次函数特点的小结•如果赫森矩阵的所有特征值为正,则函数有一个强极小点•如果赫森矩阵的所有特征值为负,则函数有一个强极大点•如果赫森矩阵的所有特征值有正有负,则函数有一个鞍点•如果赫森矩阵的所有特征值为非负,但某些特征值为零,则函数要么有一个弱极小点,要么没有驻点•如果赫森矩阵的所有特征值为非正,但某些特征值为零,则函数要么有一个弱极大点,要么没有驻点驻点: 161性能优化 162基本的优化算法pk – 搜索方向ak – 学习速度or优化的目标是求出使性能指数FF(x)最小化的x的值。

      这里讨论迭代算法,设初始值为x0,然后按下式迭代: 163最速下降法选择下一次迭代使得性能指数函数减小:对x小的变化F(x)可近似表示为(在xk的一阶Taylor级数展开):这里gk是在xk的梯度:要使F(xk+1) < F(xk),则Taylor展式的第二项必须为负,即:满足上式的任意向量称为一个下降方向最速下降方向在哪里?当方向向量与梯度反向时,该内积为负,而绝对值最大(设长度不变,只改变方向)所以最速下降方向的向量为: 164例子 165图 166稳定的学习速度(二次函数)稳定性由这个矩阵的特征值决定.即(1 – αli)是[I - aA]的特征值所以最速下降法稳定条件为:若二次函数有一个强极小点,则其特征值为正,上式可化为:如果矩阵[I - aA]的特征值小于1,则该系统就是稳定的设li是A的特征值, zi是A的特征向量那么 167例子 168沿直线最小化选择 ak 最小化其中对二次函数,令该导数为0,可得 ak 的解析表示: 169例子 170图后继每一步都正交.Fx( )ÑTxxk1+=pkgk1+Tpk== 171牛顿法求这个二阶近似式的梯度并设它为零来得到驻点: 172例子 173图 174非二次函数例子驻点:F(x)F2(x) 175不同的初始情况F(x)F2(x) 176牛顿法的特点•牛顿法是在当前初始点确定原函数F(x)的二次近似的驻点,它并不区别极小点、极大点和鞍点•如果原函数为二次函数(有强极小点),牛顿法能够实现一步极小化•如果原函数不是二次函数,则牛顿法一般不能在一步内收敛,甚至有可能收敛到鞍点和发散(最速下降法能够确保收敛,如果学习速度不太快) 177共扼向量对于一个正定的Hessian矩阵A, 称向量集合           是两两共扼的如果下式成立:矩阵A的特征向量组成一个共扼向量集合.(对称矩阵的特征向量是正交的.)已经证明,如果存在沿一个共扼方向集      的准确线性搜索序列,就能在最多n次搜索内实现具有n个参数的二次函数的准确最小化。

      问题是如何构造这些共扼搜索方向而毋须先求Hessian矩阵?即找到一种不需要计算二阶导数的方法 178对于二次函数在第k +1次迭代梯度的变化是其中共扼条件可重写成:这不需要Hessian矩阵了 179构造共扼方向选择初始的搜索方向为梯度的反方向构造后继的搜索方向为共扼方向,即使后继向量 pk 与{Δg0, Δg1, …, Δgk-1}正交类似Gram-Schmidt正交化过程(第五章介绍),可有如下简化的迭代式:其中oror 180共扼梯度算法•第一次搜索方向是梯度的负方向•选择学习速度来沿直线最小化•用下式确定下一个搜索方向:•如果算法不收敛,回到第二步•一个有 n 个参数的二次函数将在 n 步内被极小化用于二次函数) 181例子 182例子 183图共扼梯度最速下降 184Widrow-Hoff 学习算法(LMS 算法)LMS 算法 185ADALINE 网络¼wiwi 1,wi 2,wi R,= 1862-输入的ADALINE 187均方差性能指数训练集:输入:目标:符号:均方差: 188均方差性能指数分析ADALINE网络的均方差性能指数是一个二次函数: 189近似的最速下降法近似的均方误差(单个样本):近似的梯度值: 190近似的最速下降法按最速下降方向更新 191LMS 算法 192多神经元情况矩阵表示: 193稳定条件由于         ,                总是成立。

      因此稳定性条件为:对所有当矩阵[I – 2aR]的所有特征值落在单位圆内时,此动态系统趋于稳定设li是R的一个特征值,则[I - 2aR]的特征值将为1 – 2αli因此系统的稳定的条件为:或 194例子香蕉苹果 195第一次迭代香蕉 196第二次迭代苹果 197第三次迭代继续此迭代过程,算法将收敛于 198LMS 算法与感知机学习规则• 感知机学习规则:• LMS 算法:• 二者有相同的限制:只能分类线性可分的模式•  LMS 算法比感知机学习规则更有效,它使均方误差最小化,能产生比感知机学习规则受噪声影响小的判定边界。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.