在实际问题中,已知量是数据和数据标签,决策函数是未知的,即神经网络的结构未知。
因此,在使用人工神经网络结构解决实际问题时,需先假设人工神经网络结构,再将训练数据输入到该结构中 ,最后求解待求参数。
一、假设人工神经网络结构
假设人工神经网络结构主要需要确定两个问题:
(1)人工神经网络结构共有多少层?
(2)每层神经元的数量是多少?
目前,上述两个问题没有标准答案,开发人员需根据经验解决上述两个问题。解决上述两个问题时,开发人员可根据以下准则:
(1)若问题是简单的,两个类别的分界曲线是不复杂的,则可选用较简单的人工神经网络结构,即人工神经网络层数和每层神经数量均可较少。
图片来源:中国慕课大学《机器学习概论》
(2)若问题是复杂的,例如:人脸识别问题,则可选用较复杂的人工神经网络结构,即人工神经网络层数和每层神经数量均可较多。
(3)若训练数据较少,则可选用较简单的人工神经网络结构。
(4)若训练数据较多,则可选用较复杂的人工神经网络结构。
二、求解人工神经网络待求参数
以两层神经网络模型为例,如图一所示,输入为(x,y),其中,x=[x1,x2]t,y是标签值(label),问题为通过改变ω和b的值,使得标签值y与实际的人工神经网络输出值y最接近。
图一,图片来源:中国慕课大学《机器学习概论》
根据前篇文章,y的表达式为: y=ω1φ(ω11x1+ω12x2+b1)+ω2φ(ω21x1+ω22x2+b1)+b3
使得y和y最接近可表达为: minimize:e(ω,b)=e(x,y)[(y-y)2]
其中,e(x,y)为训练样本和标签的数学期望(平均值)。因为y是(ω,b)的非凸函数,所以该问题无法求得唯一最小值。
因此,采用梯度下降法(gradient descent method)求解局部极小值。梯度下降法的步骤如下:
(1)随机选取ω和b的初始值(ω(0),b(0))
(2)应用迭代算法求目标函数的局部极值,在第n步迭代中,ω和b的迭代公式为: ω(n+1)=ω(n)-α·∂e/∂ω b(n+1)=b(n)-α·∂e/∂b
其中,α为学习率(learning rate),α由开发人员设定,开发人员需选取合适的α值,若α值被设定得过大,则容易错过局部极值点,若α值被设定得过小,则可能较长时间不能找到局部极值点,只有当α值被设定得合适时,才能快速收敛至局部极值点。但因为人工神经网络对应的决策函数未知,所以没有一种可求解α值的方法,开发人员需根据经验设定α值。
图片来源:中国慕课大学《机器学习概论》
梯度下降法的含义:如图二所示,通过迭代的方式逐步遍历x1,x2,x3,…,xn,最终找到函数的局部极小值,此值即为y和y最接近的值。
图片来源:中国慕课大学《机器学习概论》
人工智能送助攻 IBM登上2016年专利榜首
AMD发布肾上腺素2020 20.12.1驱动
骁龙835配上8G运存玩王者荣耀,现场对战努比亚Z17给答案
基于SPI总线的无线数据传输系统设计
“充电模块第一股”优优绿能冲刺创业板!小米入股,募资7亿扩产升级
人工神经网络(梯度下降算法)介绍
PIC单片机的各种汇编语言指令的用法解析
电容器与串联电抗器选型注意事项
传富士康拟投资拜腾汽车2亿美元
中国电子信息产业发展研究院:5G对终端提出全新要求了
几种典型电流产生的磁感应强度分享
iphone8什么时候上市?iphone8最新消息:库克扬言iPhone8将改变世界!网友吐槽:致敬功能机
音响设计的特点及对演出节奏的影响分析
大陆厂商发力智能手机市场 欲抢占普及先机
5G通讯的相关应用和架构体及微波毫米波半导体技术
让人兴奋不已的 DOCSIS 4.0 上行频谱
前级DC隔离电源与逆变电源电路
u-blox发布新款定位模块NEO-F10N
我国动力电池产业目前的“战场形势”不容乐观
伴随着《我的祖国》音乐声,第七届中国绵阳科技科博会开幕