今天,面对AI如此重要的江湖地位,深度学习作为重要的一个研究分支,几乎出现在当下所有热门的AI应用领域,其中包含语义理解、图像识别、语音识别,自然语言处理等等,更有人认为当前的人工智能等同于深度学习领域。如果在这个人工智能的时代,作为一个有理想抱负的程序员,或者学生、爱好者,不懂深度学习这个超热的话题,似乎已经跟时代脱节了。
但是,深度学习对数学的要求,包括微积分、线性代数和概率论与数理统计等要求,让大部分的有理想抱负青年踟蹰前行。那么问题来了,理解深度学习,到底需不需要这些知识?关子就不卖了,标题已经说明。
前段时间,编辑闲逛各大社区论坛,发现一篇非常适合初学者学习的深度学习的回复帖子,用风趣的白话和例子深入浅出的分析了深度学习的过程,非常通俗易懂。通过与在西门子从事人工智能领域的杨安国老师沟通,获得内容编辑授权,把内容重新整理修正,内容更加通俗易懂,希望人人都能够理解深度学习。
关于深度学习,网上的资料很多,不过貌似大部分都不太适合初学者。杨老师总结了几个原因:
1、深度学习确实需要一定的数学基础。如果不用深入浅出地方法讲,有些读者就会有畏难的情绪,因而容易过早地放弃。
2、中国人或美国人写的书籍或文章,普遍比较难一些。
深度学习所需要的数学基础并没有想象中的那么难,只需要知道导数和相关的函数概念即可。高等数学也没学过?很好,这篇文章其实是想让文科生也能看懂,只需要学过初中数学就完全可以。
其实不必有畏难的情绪,比较推崇李书福的精神,在一次电视采访中,李书福说:谁说中国人不能造汽车?造汽车有啥难的,不就是四个轮子加两排沙发嘛。当然,他这个结论有失偏颇,不过精神可嘉。
导数是什么?无非就是变化率。
比如:王小二今年卖了100头猪,去年卖了90头,前年卖了80头。。。变化率或者增长率是什么?每年增长10头猪,多简单。这里需要注意有个时间变量—年。王小二卖猪的增长率是10头/年,也就是说,导数是10。
函数y=f(x)=10x+30,这里我们假设王小二第一年卖了30头,以后每年增长10头,x代表时间(年),y代表猪的头数。
当然,这是增长率固定的情形,而现实生活中,很多时候,变化量也不是固定的,也就是说增长率不是恒定的。比如,函数可能是这样: y=f(x)=5x?2;+30,这里x和y依然代表的是时间和头数,不过增长率变了,怎么算这个增长率,我们回头再讲。或者你干脆记住几个求导的公式也可以。
深度学习还有一个重要的数学概念:偏导数,偏导数的偏怎么理解?偏头疼的偏,还是我不让你导,你偏要导?都不是,我们还以王小二卖猪为例,刚才我们讲到,x变量是时间(年),可是卖出去的猪,不光跟时间有关啊,随着业务的增长,王小二不仅扩大了养猪场,还雇了很多员工一起养猪。所以方程式又变了:y=f(x)=5x??2;+8x? + 35x? +30
这里x?代表面积,x?代表员工数,当然x?还是时间。
上面我们讲了,导数其实就是变化率,那么偏导数是什么?偏导数无非就是多个变量的时候,针对某个变量的变化率。在上面的公式里,如果针对x?求偏导数,也就是说,员工对于猪的增长率贡献有多大,或者说,随着(每个)员工的增长,猪增加了多少,这里等于35—每增加一个员工,就多卖出去35头猪. 计算偏导数的时候,其他变量都可以看成常量,这点很重要,常量的变化率为0,所以导数为0,所以就剩对35x? 求导数,等于35. 对于x?求偏导,也是类似的。
求偏导我们用一个符号表示:比如 y/ x? 就表示y对 x?求偏导。
废话半天,这些跟深度学习到底有啥关系?当然有关系,深度学习是采用神经网络,用于解决线性不可分的问题。关于这一点,我们回头再讨论,大家也可以网上搜一下相关的文章。这里主要讲讲数学与深度学习的关系。先给大家看几张图:
图1. 所谓深度学习,就是具有很多个隐层的神经网络。
图2.单输出的时候,怎么求偏导数
图3.多输出的时候,怎么求偏导数。
后面两张图是日本人写的关于深度学习的书,感觉写的不错,把图盗来用一下。所谓入力层,出力层,中间层,分别对应于中文的:输入层,输出层,和隐层。大家不要被这几张图吓着,其实很简单的。再举一个例子,就以撩妹为例。男女恋爱我们大致可以分为三个阶段:
1.初恋期。相当于深度学习的输入层。别人吸引你,肯定是有很多因素,比如:身高,身材,脸蛋,学历,性格等等,这些都是输入层的参数,对每个人来说权重可能都不一样。
2.热恋期。我们就让它对应于隐层吧。这个期间,双方各种磨合,柴米油盐酱醋茶。
3.稳定期。对应于输出层,是否合适,就看磨合得咋样了。大家都知道,磨合很重要,怎么磨合呢?就是不断学习训练和修正的过程嘛!比如女朋友喜欢草莓蛋糕,你买了蓝莓的,她的反馈是negative,你下次就别买了蓝莓,改草莓了。
看完这个,有些小伙可能要开始对自己女友调参了。有点不放心,所以补充一下。撩妹和深度学习一样,既要防止欠拟合,也要防止过拟合。所谓欠拟合,对深度学习而言,就是训练得不够,数据不足,就好比,你撩妹经验不足。要做到拟合,送花当然是最基本的,还需要提高其他方面,比如,提高自身说话的幽默感等,因为本文重点并不是撩妹,所以就不展开讲了。这里需要提一点,欠拟合固然不好,但过拟合就更不合适了。过拟合跟欠拟合相反,一方面,如果过拟合,她会觉得你有陈冠希老师的潜质,更重要的是,每个人情况不一样,就像深度学习一样,训练集效果很好,但测试集不行!就撩妹而言,她会觉得你受前任(训练集)影响很大,这是大忌!如果给她这个印象,你以后有的烦了,切记切记!
深度学习也是一个不断磨合的过程,刚开始定义一个标准参数(这些是经验值,就好比情人节和生日必须送花一样),然后不断地修正,得出图1每个节点间的权重。为什么要这样磨合?试想一下,我们假设深度学习是一个小孩,我们怎么教他看图识字?肯定得先把图片给他看,并且告诉他正确的答案,需要很多图片,不断地教他,训练他,这个训练的过程,其实就类似于求解神经网络权重的过程。以后测试的时候,你只要给他图片,他就知道图里面有什么了。
所以训练集,其实就是给小孩看,带有正确答案的图片,对于深度学习而言,训练集就是用来求解神经网络的权重,最后形成模型;而测试集,就是用来验证模型的准确度。
对于已经训练好的模型,如下图所示,权重(w1,w2…)都已知。
图4
图5
我们知道,像上面这样,从左至右容易算出来。但反过来我们上面讲到,测试集有图片,也有预期的正确答案,要反过来求w1,w2……,怎么办?
绕了半天,终于该求偏导出场了。目前的情况是:
1.我们假定一个神经网络已经定义好,比如有多少层,每层有多少个节点,也有默认的权重和激活函数等。输入(图像)确定的情况下,只有调整参数才能改变输出的值。怎么调整,怎么磨合?刚才我们讲到,每个参数都有一个默认值,我们就对每个参数加上一定的数值?,然后看看结果如何?如果参数调大,差距也变大,你懂的,那就得减小?,因为我们的目标是要让差距变小;反之亦然。所以为了把参数调整到最佳,我们需要了解误差对每个参数的变化率,这不就是求误差对于该参数的偏导数嘛。
2.这里有两个点:一个是激活函数,这主要是为了让整个网络具有非线性特征,因为我们前面也提到了,很多情况下,线性函数没办法对输入进行适当的分类(很多情况下识别主要是做分类),那么就要让网络学出来一个非线性函数,这里就需要激活函数,因为它本身就是非线性的,所以让整个网络也具有非线性特征。另外,激活函数也让每个节点的输出值在一个可控的范围内,这样计算也方便。
貌似这样解释还是很不通俗,其实还可以用撩妹来打比方:女生都不喜欢白开水一样的日子,因为这是线性的,生活中当然需要一些浪漫情怀了,这个激活函数嘛,我感觉类似于生活中的小浪漫,小惊喜,是不是?相处的每个阶段,需要时不时激活一下,制造点小浪漫,小惊喜。比如,一般女生见了可爱的小杯子,瓷器之类都迈不开步子,那就在她生日的时候送一个特别样式,要让她感动得想哭。前面讲到男人要幽默,这是为了让她笑,适当的时候还要让她激动得哭。一哭一笑,多整几个回合,她就离不开你了。因为你的非线性特征太强了。
当然,过犹不及,小惊喜也不是越多越好,但完全没有就成白开水了。就好比每个layer都可以加激活函数,当然,不见得每层都要加激活函数,但完全没有,那是不行的。
关键是怎么求偏导。图2和图3分别给了推导的方法,其实很简单,从右至左挨个求偏导就可以。相邻层的求偏导其实很简单,因为是线性的,所以偏导数其实就是参数本身嘛,就跟求解x?的偏导类似。然后把各个偏导相乘就可以了。
这里有两个点:一个是激活函数,其实激活函数也没啥,就是为了让每个节点的输出都在0到1的区间,这样好算账嘛,所以在结果上面再做了一层映射,反正都是一对一的。由于激活函数的存在,所以在求偏导的时候,也要把它算进去,激活函数,一般用sigmoid,也可以用Relu等。激活函数的求导其实也非常简单:
求导: f'(x)=f(x)*[1-f(x)]
这个方面,有时间可以翻看一下高数,如果没时间,直接记住就行了。至于Relu,那就更简单了,就是f(x) 当x0的时候y等于0,其他时候,y等于x。当然,你也可以定义你自己的Relu函数,比如x大于等于0的时候,y等于0.01x,也可以。
另一个是学习系数,为什么叫学习系数?刚才我们上面讲到?增量,到底每次增加多少合适?是不是等同于偏导数(变化率)?经验告诉我们,需要乘以一个百分比,这个就是学习系数,而且,随着训练的深入,这个系数是可以变的。
当然,还有一些很重要的基本知识,比如SGD(随机梯度下降),mini batch 和 epoch(用于训练集的选择),限于篇幅,以后再侃吧。其实参考李宏毅的那篇文章就可以了。其实上面描述的,主要是关于怎么调整参数,属于初级阶段。上面其实也提到,在调参之前,都有默认的网络模型和参数,如何定义最初始的模型和参数?就需要进一步深入了解。不过对于一般做工程而言,只需要在默认的网络上调参就可以,相当于用算法;对于学者和科学家而言,他们会发明算法,这有很大的难度。向他们致敬!
最后,杨老师推荐一篇非常不错的文章:《1天搞懂深度学习》,300多页的ppt,台湾李宏毅教授写的,非常棒。不夸张地说,是关于深度学习最系统,也最通俗易懂的文章。
这是slideshare的链接:
https://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bcv=b=from_search=3
没梯子的同学,可以从杨老师的网盘下载:
https://pan.baidu.com/s/1nv54p9R密码:3mty
本文内容引用杨老师在知乎上的回复:
https://www.zhihu.com/question/26006703/answer/129209540
媒体合作请联系:
邮箱:xiangxiaoqing@stormorai.com
小满的寓意和象征小满的寓意有两层,一是说小满节气期间暴雨增多,降水频繁,小满中的满是指雨水之盈,小满时节雨量大,江河至;在中国传统文化中,小满有着丰富的寓意和象征二十四节气立夏已去,小满未满此时,蔷薇...
安徽16市的平均工资排名又更新了!这其中有你现在生活的城市也有你的家乡看了这个最新一季的排名榜单老A君难过地说不出话来! 是的,你没看错不仅如此更伤心的来了我们工资低我们房价不低啊!不信你就看看我们...
【导读】很多感觉自己做面包既美味又健康,因此面包机成为家居早餐的首选,面包机的使用方法很方便,但是有些使用过程中需要注意的地方还是要了解到的,那么面包机如何使用?面包机使用需要注意哪些问题呢?下面...
临近暑假很多宝爸宝妈们也都开始计划起了宝宝们的假期行程了昨天小编也做了一向调查大部分的家长都决定暑假带宝宝们出去耍一耍小编就整理了一些周边好玩的旅游景点供各位宝爸宝妈们参考 鸠兹古镇“鸠兹”一直...
法制网讯 记者范天娇 通讯员曹杰 蔡玉良 谎称有渠道以低价购进品牌手机,诱惑购货人投资或支付预付款,仅用两年不到的时间,就骗取资金1.4亿余元。7月7日,安徽省宿州中院对陈安乐涉嫌诈骗罪进行公开审...
1、安徽省阜阳考生可登录安徽省教育招生考试院网站进行成绩查询,也可通过安徽省教育招生考试院微信公众号上的“信息查询”菜单,点击进入查询页面如考生对考试成绩有疑问,可登录安徽省成人招生考试;从安徽省教育...