深度学习

来自集智百科
跳转到: 导航搜索

深度学习(也被称为深度结构学习或者分层学习)是基于数据表示学习的机器学习子集,而不是针对特定任务的算法。这种学习方式可以是有监督的半监督,或者是无监督的。[1][2][3]

深度学习的构架,如深度神经网络深度信念网络循环神经网络已经被应用于很多领域,比如计算机视觉语音识别自然语言处理,社交网络过滤,机器翻译生物信息学药物设计棋类游戏程序等。在这些领域中深度学习的能力可以与人类专家匹配,甚至超越人类专家。[4][5][6]

深度学习模型略微受到了信息处理和生物神经系统的交流的启发,但是与生物大脑的有着结构和功能性质上的差异,这使得它们与神经科学的一些发现是相冲突的。[7][8][9]

深度学习是一类机器学习算法:[10]

  • 使用了多层的非线性处理单元用于特征抽取和特征处理。后一层使用前一层的输出作为输入。
  • 可以使用监督(比如分类)或者非监督(比如模式分析)的方式学习。
  • 对应不同层次的抽象可以学到不同层次的表示。这些层次是垂直分层的。

目录

概览

大多数现代的深度学习模型都是基于人工神经网络的,尽管它们也可以包括命题逻辑和深度生成模型中层维度的隐变量,比如深度信念网络和深度玻尔兹曼机中的节点。[11]

在深度学习中,每一层都会将它的输入数据转化为更加抽象和组合的表示。在图像识别的应用中,原始数据可能是由像素组成的矩阵。第一个表示层可能会将像素抽象并编码成边缘。第二层可能会组合并再编码这些边缘。第三层可能会编码出鼻子或者眼睛。第四层可能会识别图像是否包含一张脸。在这其中最重要的是,深度学习的过程可以学习特征所处的最优位置。(当然,并不能完全排除手动调整,比如,不同的层数和每层不同的大小可以提供不同程度的抽象。)[1][12]

“深度学习”中的“深度”指的是数据转化层的数量。更确切地说,深度学习系统具有很大的信念分配路径(CAP)。CAP即输入到输出的转化链。[2] 说明了输入和输出之间的潜在的因果关系。对于一个前馈神经网络,CAP的深度就是网络的隐层数加一(因为输出层也有参数)。对于循环神经网络,信号可能会多次经过同一层,CAP的深度可能是无限的。浅度学习和深度学习之间的阈值没有一个普遍的共识,但是大多数研究人员认为只要CAP深度大于2就可以认为是深度学习,因为有研究指出,只要CAP深度大于2神经网络就能以任意精度拟合任意函数。CAP深度大于2再增加层数也不能增加神经网络的逼近函数的性能。所以说这些额外的层有助于学习特征。

神经网络通常是用逐层贪婪的方法构建的。(需要澄清)(需要进一步的解释)深度学习有助于分解这些抽象概念,找出哪些特征可以提高性能。 对于有监督的学习任务,深度学习可以避免做特征工程,并将数据抽象为一些中间的表示方法,这有点类似于主成成分分析。这样可以消除表示结构中的冗余。 深度学习算法可以应用于无监督学习人员。这是一个很重要的优点,因为未标记的数据比有标记的数据更多。深度学习构架用于无监督学习例子就是神经历史压缩器以及深度信念网络[1][13]

解释

深度神经网络通常被解释为万能近似定理[14][15][16][17][18]或者概率推断[10][11][1][2][13][19][20]

万能近似定理有关单隐层前馈神经网络对有限集连续函数的拟合能力[14][15][16][17][18]在1989年,由George Cybenko给出sigmoid激活函数的第一个证明,[15]并由Kurt Hornik于1991年将其推广到多层的前馈神经网络结构。[16]

概率角度[19] 的解释源于机器学习领域。它具有推断性以及分别与拟合与泛化相关的训练测试优化概念。更具体地说,概率角度的解释认为非线性的激活函数是一种累积分布函数。概率角度的解释在神经网络中引入了失活(dropout)正则化的的方法。概率角度的解释是由HopfieldWidrowNarendra等研究人员提出的,并在Bishop等人[10][11][1][2][13][19] 的推广下普及。[21][22]

历史

深度学习这个术语是有Rina Dechter于1986年[23][24]引入到机器学习社区中的。2000年Igor Aizenberg和他的同事在布尔门神经元中引入到人工神经网络。[25][26]

1965年,Alexey Ivakhnenko 和Lapa发布了第一个有监督的,深度的,前馈的,多层的感知机的一般性的学习算法。[27]1971年的一篇论文描述了一个使用群数据处理算法训练的8层深度学习网络。[28]

其他深度学习的工作架构,尤其是那些为了计算机视觉设计的,最开始由Kunihiko Fukashima在1980年引入了Neocognitron[29] 1989年,Yann LeCun等人应用了标准的反向传播算法,这种算法自1970年[30][31][32][33]以来一直是用于深度神经网络的自动微分的反模式,这个神经网络的目的是为了识别邮件上的手写的数字邮政编码。虽然算法很有用,但是这需要训练三天。[34]

1991年,这种系统被用于识别独立的2维手写数字,也可以用一个手工的3D目标模型来匹配2D的图像来识别3D的物体。[35][36][37]Weng等人提出,人类大脑不使用单一的3D对象模型,1992年他们发表了Cresceptron,这是一种在杂乱场景中对三维图像进行识别的方法。Cresceptron是一个类似于Neocognitron的层叠网络。但是Neocognitron需要程序员去手动整合特征,而Cresceptron可以在无监督的情况下在每层中学到任意数量的特征,其中的每个特征会使用卷积核表示。Cresceptron通过对网络进行回退分析来从聚合的场景中将学习对象分离出来。现在经常用在深度神经网络中的最大池化(比如ImageNet的测试)就是Cresceptron先采用的。Cresceptron通过堆叠将位置分辨率从2x2降低到1来提高泛化能力。

1994年,André de Carvalho,Mike Fairhurst 和 David Bisset共同发表了一个多层布尔神经网络的实验性结果,这个网络也称之为无权重神经网络,它由三层自组织的特征提取神经网络模块(SOFT),随后是多层的分类神经网络模块(GSN),这些模型也都是独立训练的。特征提取模型中的每一层都提取了比前一层更加复杂的特征。[38]

1995年,Brendan FreyPeter DayanHiton 证明了可以使用Wake-sleep算法训练一个6层全连接且具有数百个隐层节点的神经网络。[39] 这里有很多因素会导致传播变慢,比如1991又Sepp Hochreiter分析出的梯度消失问题[40][41]

在上个世纪90年代和本世纪00年代,因为ANNs的计算成本和缺乏大脑神经元如何连接的认知,一些使用手工特征的简化模型比如Gabor过滤器支持向量机通常是一个受欢迎的选择。

ANNs的浅度学习和深度学习都已经被探索多年。[42][43][44]在语音的生成式模型领域这些方法都没超过内部手工的非均匀高斯混合模型/[ https://en.wikipedia.org/wiki/Hidden_Markov_model 隐马尔可夫模型]。在神经网络预测模型遇到的关键的困难就是梯度弥散和弱时间相关结构。[45] Key difficulties have been analyzed, including gradient diminishing[40][46][47] 另外的困难就是训练数据的缺乏和计算能力的限制。

大多数语语音识别研究人员都从神经网络转向了生成式模型。20世纪90年代末,SRI国际公司是其中的一个例外。[48]

美国国家安全局美国国防部高级研究计划局的资质下,SRI研究了语音识别和语者识别的深度神经网络。Heck's的语者识别团队在1998年国家标准与技术研究所的语音处理方面取得了第一个重大的成功。虽然SRI在语者识别的深度神经网络方面取得了成功,但在语音识别方面却没有取得类似的成功。上世纪90年代末,在“原始”光谱图和线性滤波器特征的深度自编码结构中,首次成功探索了将“原始”特征提升到手工优化特征的原则,表明其优于含分阶段固定变换的MelCepstral特征的。语音的的原始特征,波形,后来产生了出色的大规模结果。[49]

语音识别的很多方面都会用到一个叫做长短时记忆网络(LSTM)的神经网络结构,这是Hochreiter和Schmidhuber于1997年发表的一种循环神经网络结构(RNN)。[50]长短时记忆的循环神经网络避免了梯度消失的问题,而且可以学习非常深的网络结构,这种网络结构可以跨越数千个离散的时间步,记住非常久之前发生的事件,而这对于语言识别来说恰恰是非常重要的。[51] 在2003年,长短时记忆网络开始在某些特定任务上与传统的语言识别器竞争。后来,长短时记忆循环神经网络开始与CTC(connectionist temporal classification)相结合。在2015年,据报道,经过CTC训练的长短时记忆网络的谷歌语言识别系统性能大幅提升了约49%,这项功能以及由谷歌语音搜索提供。[52]

在2006年,Geoff Hinton,Ruslan Salakhutdinov,Osindero和Teh的出版物表明了如何有效地每次逐层地预训练一个多层的前馈神经网络[53] [54][55] 通过轮流将每一层视作一个无监督的玻尔兹曼机,然后利用有监督下的反向传播算法对其进行微调。[56]这些论文也提到了深度信念网络。

深度学习是各个学习最先进的系统的一部分,特别是计算机视觉和自动语音识别(ASR)。常用的评估集有TIMITMNIST等,以及一系列的大词汇语音识别任务的性能也在稳步提高。[57][58][59] 对于长短时记忆网络而言,卷积神经网络(CNNs)被CTC替换成(ASR)。[50][52][60][61][62][63][64] 但在计算机视觉方面更为成功。

根据Yann LeCun 的数据,[65]深度学习对于产业的影响始于21世纪初期,当时CNNs已经处理了美国所有支票的10%到20%。深度学习在大规模语音识别的领域的工业应用始于2010年左右。 2009年,NIPS的深度语音识别工作组积极于深度语音生成模型的局限性,[57][66]以及深度神经网络对更强大硬件和大规模数据集实用化的可能性。然而,后来发现直接使用大量数据的反向传播算法来代替预训练的大型且输出层上下文独立的深度神经网络会比最先进的高斯混合模型/隐马尔可夫模型错误率更低,而且这也是更加先进的基于模型的生成式系统。这两类识别系统产生错误的原因是有本质不同的,[67][68]将深度学习整合进已存在的高效的实时的语音编码系统已经被主流的语音识别系统所部署,这里提供了一些技术的洞见。[69]2009-2010左右的分析,将高斯混合模型(以及其他生成式语音模型)和深度神经网络模型进行了对比,刺激了对深度学习语音识别的早起工业投资,最终工业上的普遍和主导性的使用。分析结果表明,辨别式深度神经网络模型和生成式模型之间的表现是差不多的(小于1.5%的错误率)。[57][67][70][71]

2010年,研究人员将深度学习从TIMIT扩展到大词汇的语音识别,采用一个大型输出层的深度神经网络,其基于决策树构造的上下文独立的隐马尔可夫状态。[72][73][74][75]

硬件方面的进步使得人们重新产生了兴趣。2009年,随着深度学习神经网络由英伟达图像处理单元(GPUs)[76]训练,英伟达也参与了所谓的深度学习的“大爆炸”。那一年,Google Brain使用了英伟达GPUs来构造强大的DNNs。而且Ng确定GPUs可以加速深度学习系统大约100倍。[77]GPUs特征适用于机器学习涉及到的矩阵/向量运算。[78][79]GPUs将训练算法加速了一个数量级,几周的任务只要几天即可完成。[80][81]专门的硬件和算法的优化也可以用于高效的处理。[82]

深度学习革命

在2012年一个由Dahl领导的队伍通利用多任务深度神经网络来预测一种药物的生物分子靶标,[83][84] 赢得了 "Merck Molecular Activity Challenge" 。2014年,Hochreiter的团队利用深度学习来探测环境化学物质在营养物质、家庭产品和药物中的副作用和有毒影响,并赢得了的NIHFDANCATS的"Tox21 Data Challenge"。[85][86][87]

2011年至2012年期间,深度学习在图像和物体识别方面有了重大的额外影响。虽然使用反向传播训练的CNN已经存在了几十年,而且多年以来,神经网络比如CNNs的GPU实现也已经很多年了。计算机视觉方面,在Ciresan式的GPU上面快速实现有最大池化的CNNs还需要人们的努力。[78][79][34][88][2] 在2011年,这个方法首次在计算机视觉的模式识别方面取得了超人的成就。[89] 同样是在2011年中,它也获得了ICDAR汉字手写识别竞赛的冠军,再后来的2012年3月,获得了ISBI图像分割竞赛的冠军。2011年之前,CNNs都不是计算机视觉方面的主力,但是在2012年7月,CVPR会议上,Ciresan等人发表的一篇论文显示,GPU上带最大池化的CNNs可以多么显著地提升计算机视觉方面性能。在2012年10月,由Krizhevsky等人开发出的一个类似的系统获得了大规模ImageNet 竞赛的冠军,他们的方法大幅领先了浅层的机器学习方法。在2012年11月,Ciresan等人的系统也赢得了大型癌症检测医学图像分析的ICPR竞赛,并且在接下来的一年里,MICCAI挑战也使用了同样的主题。在[90]2013年和2014年,使用深度学习的ImageNet任务的错误率再次下降,同样的趋势也发生在大规模语音识别上。Wolfram图像识别计划公布了这些改进。[91] 然后将图像识别拓展到图像描述(标题)生成这一更加具有挑战性的任务,这些描述通常是CNNs和LSTMs的结合。[92][93][94][95]

一些评估人员说,2012年10月的ImageNet胜利奠定了深度学习革命的开始,这场革命改变了人工智能行业。[96]

神经网络

人工神经网络

人工神经网络,Artificial neural networks (ANNs) ,或者叫连接主义系统是一个由生物神经网络启发得到的计算系统。这种系统通过样本来进行学习(逐步提高它们的性能)来完成任务,通常不会对特定任务进行编程。比如,在图像识别中,它们需要识别一张含有猫的图像来判断这张图像是不是猫,这些图像通常已经被人工打上是猫或者不是猫的标签。人们发现,使用基于规则的传统计算机算法很难在程序中进行表达。

一个人工神经网络是基于由人工神经元进行连接的神经元的集合组成的(类似于生物大脑重话的生物神经元)。神经元之间的每一个连接(突触)都可以将信号传递给另一个神经元。接收(突触后)神经元可以处理信号,然后向后面的神经元发出信号。神经元本身可以具有状态,通常用一个0到1之间的实值数字来表示。神经元和突触也可能具有随着学习过程而改变的权重,这些权重决定了向下一个神经元发送信号的强度的增减。

通常情况下,神经元是分层组织的。不同的层会对它们的输入信号进行不同种类的转换。信号会从第一层(即输入)传递到最后一层(即输出),也有可能在这些层之间进行多次的传递。

神经网络方法的最初目的是以类人类大脑的方法来解决问题。随着时间的推移,人们的集中于匹配特定的智力能力,这导致了从生物学上的偏离。比如,反向传播即反向传播信息以调整网络来反应这些信息。

神经网络被用于各种各样的任务,包括计算机视觉,语音识别机器翻译社交网络过滤,棋类游戏,视频游戏和医学诊断。

到2017年,神经网络通常有几千到几百万个单元和数百万个连接。尽管这个数字比人脑中的神经元数量少了几个数量级,但是这些神经网络已经可以在特定任务上超越人类了。(比如图像识别和玩围棋[97]

深度神经网络

注意:这一部分对于某些读者可能过于技术化了。

深度神经网络(DNN)是输入层和输出层之间隔了很多层的人工神经网络。无论是线性关系还是非线性关系,DNN都能找到正确的数学操作来将输入转化为输出。这个网络会经过每一层来计算每个输出的概率。比如,一个用来识别狗品种的DNN会检查给定的图像然后计算这只狗屎某个品种的概率。用户可以检查结果并选择神经网络网络应该显示哪个概率(通过指定阈值),并返回期望的标签。每一个这样的数学操作都作为一个层存在,而复杂的DNN有很多层,因此叫做“深度”网络。

DNNs可以建立复杂的非线性关。DNN构架生成的组合模型中,对象被表达为一个分层的原语组合。这些额外的层使得底层特征组成成为了可能,比同样表现的浅度网络使用更少的单元来对复杂的数据进行了建模。

深层构架包括了许多基本方法的变体。每个构架都在特定领域取得了成功。除非在相同的数据集上对它们进行评估,否则不可能对这些构架进行性能评估。

DNNs的一个典型的例子就是前馈神经网络,即数据从输入层流向输出层且不会向后进行循环。一开始,DNN创建一张虚拟神经元的映射图,并给予神经元之间的连接以随机数值,或者称之为权重。权重和输入相乘并得到一个0到1之间的输出。如果网络不能准确识别特定的模型,算法就会重新调整权重。这种算法可以使得某些参数更加具有影响力,直到它确定了正确的数学操作来处理全部的数据。

循环神经网络(RNNs),这种网络中的数据可以向任意方向流动,通常用于语言模型的建模。LSTM对于这种应用非常的有效。

卷积神经网络(CNNs),这种网络通常用于计算机视觉。自动语言识别(ASR)声学模型也使用了CNNs。

挑战

和ANNs一样,很多问题都可能出现在直接训练的DNNs伤。这里有两个常见的问题,一个是过拟合,一个是计算成本。[98]

由于抽象层的增加,所以DNNs很容易过拟合,这使得模型不能对训练数据独立。一些正则化方法,比如Ivakhnenko的单元修剪和权重衰减(L2正则化)以及sparsity(L1正则化)可以在训练期间使用以对抗过拟合。或者,在训练期间,将神经元从隐层中随机地移除。这有助于排除一些罕见的依赖关系。最后,数据可以通过裁剪和旋转等方法得到增强,这样可以在小数据集上降低过拟合的可能性。

DNNs必须考虑很多的训练的参数,比如规模(层的数量和每层的单元数量),学习速率,初始权重。由于时间成本和计算资源的限制,遍历参数空间来获得最佳的参数是不可能的。就有了各种各样的技巧来加速计算,比如分批(一次只使用一部分的样本来计算梯度)。多核架构(GPUs, Intel Xeon Phi)大型处理能力以及大幅度加速的训练的过程,因为这种处理架构非常适合于矩阵和向量计算。 或者,工程师可能会寻找其他类型的神经网络,这些网络具有更直接和具有收敛性的训练算法。[99]小脑关节控制器模型(CMAC)就是一个不需要学习速率和随机初始权重的模型。训练在新的一批数据下可以保证一步就收敛,并且训练算法的复杂度与所涉及的神经元数量呈线性关系。[100][101]

应用

自动语音识别

大规模自动语音识别是深度学习第一个也是最有说服力的成功案例。[2] LSTM RNNs可以学习非常深结构的任务,这些任务涉及到了包含数千个离散时间步分割的语音事件的多时间间隔,其中一个时间步大概是10 ms。LSTM有遗忘门,这让它在某些任务上对传统语音识别器具有竞争力。[51]

语音识别的初步成果是基于基于TIMIT的小规模语音识别任务。这套数据包含了来自美国英语八大方言的630位说话者,每个说话者读10个句子。它的小规模可以让许多配置都可以尝试。更重要的是,TIMIT任务涉及到音素识别,这与单词识别不同,这需要弱音素双语语言模型的支持。这使得语音识别的声学建模方面的强度更加容易分析。下面列出1991以来的错误率,包括了早期的结果和以PER方式衡量的。

【表格】 DNNs语者识别在1990年代末首次亮相,语音识别大概在2009到2011之间,而LSTM大概在2003至2007年,在以下的8个主要方面加快了进程:[10][71][75]

  • 扩大和加速了DNN训练和解码。
  • 序列判别训练。
  • 深度模型的特征预处理的基本机制的深刻理解。
  • 使用DNNs进行多任务迁移学习相关的深度模型。
  • 如何设计CNNs来更好识别领域特定的说话方式。
  • RNN和基于RNN的LSTM的丰富变体。
  • 其他类型的深度学习模型,包括了基于张量的模型和整合深度生成/辨别式的模型。

所有的商业语音识别系统(Microsoft CortanaxboxSkype TranslatorAmazon AlexaGoogle NowApple SiriBaiduiFlyTek 语音搜索和一系列的Nuance语音产品)都是基于深度学习的。[10][102][103][104]


图像识别

图像分类的一个常用的评估集是MNIST数据集。MNIST是由手写数字组成的,包括了6万个训练示例和10000个测试示例。和TIMIT一样,它的小规模运行用户尝试多种配置。关于这个评估集的一个结果在这里可以找到。[105]

基于深度学习的图像识别已经成为了“超人”,比人类的参赛者准确率更高。这件事首先发生在2011年。[106]

经过深度学习训练的车辆现在可以理解360度相机的视图。[107]另一个例子是FDNA用于分析人类畸形和基因间的关系。

视觉艺术处理

因为图像识别方面的进步,应用于不同视觉艺术任务的应用也在增加。例如,DNNs已经可以做到:1. 识别给定图像是属于哪个时期的风格,2. 捕捉给定图像的风格并将其应用其他任意照片上产生良好的视觉效果,3. 用随机涂鸦生成完整图像[108][109]

自然语言处理

自2000年代初依赖,神经网络一直被用于实现语言模型。[110][111]LSTM帮助提高了机器翻译和语言建模能力。[112][113][114]

这一领域的其他关键技术包括了负采样[115]词嵌入。词嵌入,比如word2vec,可以理解成一个表示层,在一个深度学习构架中,将原词汇转化成相对于数据集中其他单词的位置表示;[106]这个位置被表示成矢量空间中的一个点。[116]使用词嵌入作为RNN的输入层,这允许网络使用一个高效组合向量语法来解析词句。一个组合向量语法可以被认为是使用RNN实现的非语法概率语境(PCFG)。[117] information retrieval,[118][119] spoken language understanding,[120] machine translation,[112][121] contextual entity linking,[121] writing style recognition,[122]基于词嵌入的递归自编码机可以评估句子的相似性并检测其释义。深度神经网络结构在语法分析,词汇分析信息检索,口头语言理解,机器翻译,语境实体联系,写作风格识别,文本分类等领域都取得了最好的结果。[123]

谷歌翻译(Google Translate)使用了一个庞大的端到端LSTM网络。谷歌神经机器翻译(Google Neural Machine Translation)使用了一种基于示例的机器翻译方法,该系统从数百万个例子中学习。它可以将整个句子一次翻译出来,而不是一个片段地翻译。谷歌翻译支持超过100种语言。[124] information retrieval,[125][126] spoken language understanding,[120] machine translation,[112]神经网络赋予了句子语义,而不是简单的记忆词到词的翻译。谷歌翻译将英语作为大多数语言翻译直接的中间体。[127]

药物发现及药理学

有很大一部分候选的药物未能获得监管部门的批准。这是因为效果不足(目标效果),不理想的相互作用(非目标效果)或者意料之外的毒性影响。[128][129]研究探讨了利用深度学习来预测生物分子靶标、环境化学品对营养物质、家庭产品和药物的有毒影响。[85][86][87] AtomNet是一个基于结构的有效药物设计的深度学习系统。[130] AtomNet用于预测新的候选生物分子,用于治疗诸如埃博拉病毒[131]和多发性硬化症等疾病。[132][133]

客户关系管理

深度强化学习以及被用来评估可能的直接营销的行动结果,这些行动用RFM变量来定义,预测值的函数也证明有客户终生价值的自然解释。[134]

推荐系统

推荐系统已经使用深度学习来为基于内容的音乐推荐的潜在因素模型提取有意义的特征。[135]多视图深度学习已被应用于从多个领域学习用户偏好。[136]该模型采用了一种基于内容的混合协作方式,并在多项任务中加强了推荐。

生物信息学

生物信息学使用了一个自编码的ANN来预测基因本体的解释和功能关系。[137]

在医学信息学中,深度学习基于可穿戴设备的数据[138]和电子健康记录数据来对并发症进行预测,深度学习已被用来预测睡眠质量。[139]深度学习在医疗保健方面也显示出了效果。[140]

移动设备广告

为移动设备广告寻找合适的移动设备用户总是非常具有挑战性,因为许多数据点必须被考虑和同化在广告商创建和使用目标片段之前。[141][142] 深度学习以及被用来解释大量和多维度广告数据集。许多数据点实在请求/服务/点击互联网广告的周期中收集得到的。这些信息可以构成及其学习的基础,以改善广告的投放。

图像复原

深学习已成功地应用于去噪,超分辨率,图像增强等逆问题。[143]这些应用包括了“有效图像复原的收缩域”等学习方法,这些方法在图像数据集上进行训练以及Deep Image Prior,训练在需要复原的图像上面。

金融欺诈识别

深度学习正成功地应用于金融欺诈识别和反洗钱活动。“深度反洗钱识别系统”可以发现和识别数据间的相似性,并在之后的过程中发现异常现象或对具体事件进行分类和预测。这个解决方案利用了有监督的学习技术,如可疑交易的分类,以及非监督学习,如异常检测。[144][145]

人类认知与大脑发育之间的关系

深度学习和认知神经科学家在20世纪90年代初提出的一类大脑发育的理论(特别是新皮层)密切相关。这些发展理论在计算模型中被实例化,使得他们成为了深度学习系统的前身。[146][147][148][149] 这些反正模型分享了大脑中各种学习动力学的特性(如神经生长因子的一种波)支持了自组织结构,这与深度学习模型中使用的神经网络有点类似。与新皮层一样,神经网络采用分层的过滤器,每一层都从前一层(或操作环境)中接受信息,然后将其输出传递给其他的层。这个过程产生一个自组织的传感器堆栈,很好地调整了它们的操作环境。1995年的一份描述说,……婴儿的大脑是在所谓的营养因子波的影响下组织了起来,大脑的不同区域会相互连接,一层组织在另一层之前成熟,如此持续,直到整个大脑成熟。[150] 人们已经采用了各种方法来从神经生物学的角度研究深度学习模型的合理性。[151][152]一方面,为了提高算法处理的实在性,提出了几种不同的反向传播算法。[153][154] 其他研究人员认为,无监督的深度学习形式,比如基于分层的生成式模型和深度信念网络可能更接近于生物现实。在这方面,神经生物有证据说明大脑皮层是基于取样的,生成式神经网络模型可能与之有关[155][156][157] and neural populations.[158] Similarly, the representations developed by deep learning models are similar to those measured in the primate visual system[159][160] and at the population[161]

商业活动

许多组织为特定的应用程序采用深度学习。Facebook的人工智能实验室会有一些任务,比如自动给上传的图片加图片人名字的标签。[162] 谷歌的DeepMind开发了一个能够学习如何使用像素作为数据输入来玩游戏的系统。[163]2015年,他们展示了AlphaGo系统,这个系统学会了如何打败专业的围棋玩家。[164][165][166]谷歌翻译使用LSTM来翻译100多种语言。[167]

批评和评论

深度学习引来了一些批判和评论,某些情况下这些批判和评论来自于计算机科学领域之外。

理论

一个主要的批判是,没有一个围绕这些方法的理论。在常见的深度学习结构中,学习使用的是常见的梯度下降算法。然而,围绕其他算法的理论,比如对比分歧,则不那么清楚。(例如,它可以收了吗?如果可以收敛那么要多久?它又有什么近似?)深度学习方法通常被视作一个黑匣子,大多数的证实都是通过实践而不是理论的。[168]

其他人指出,应该把深度学习视作实现强人工智能的一个步骤,而不是一个包罗万象的解决方法。[169]尽管深度学习非常强大,但是仍缺乏实现这个目标所需要的大部分功能。研究心理学家Gary Marcus指出:实际上,深度学习只是构建智能机器这一更大挑战的一部分。[170] 这些技术缺乏表现因果关系的方法……没有明显的逻辑推理方法,而且它们与集成抽象知识(比如关于对象式什么的信息、它们的用途以及它们的典型使用方式)。最强大的人工智能系统,比如Watson使用了深度学习这一技术作为一个非常复杂技术组合中的一个元素,从统计学的贝叶斯推断到演绎推理。[171]

作为强调深度学习限制的另一个例子,一位作者推测,也许有可能训练一个机器视觉的堆叠来完成一个复杂的任务,区分职业和业余人士的肖像画,并假设这种敏感性可能表示了普通机器学习算法演化的雏形。[172] 同一位作者指出,这符合人类学观点,认为美学是行为现代性的关键因素。

为了进一步提到艺术明干新可能存在于认知层次的相对较低的层次中,有人发了一系列关于深度(20-30层)神经网络内部状态的图标,试图从完全随机的数据中分辨出他们所训练的图像:原始的研究已经收到了超过1000条评论,这是《卫报》网站上一段时间内最常被访问文章的主题。[173] web site.

错误

一些深度学习构架表现出了一些有问题的行为,例如自信地将不可分辨的图像归类为一个常见的普通图像类型,[174]并且如果将正确分类的图像加上一个细小的扰动就会被分类错误。Goertzel假设,这些行为是由于它们内部表现的局限性,[175] 这些限制将抑制异构的多成分AGI构架的集成。[176]这些问题也许可以通过深度学习构架来解决,这种体系结构的内部形式与观察到的实体和事件的图像语法分解类似。从训练数据中学习语法(视觉或语言)相当于将该系统限制在符合语法生产规则概念上的常识推理,这是人类语言习得[177]和AI的基本目的。[178]

安全威胁

随着深度学习从实验室走向世界,研究和经验表明人工神经网络容易受到黑客和欺诈攻击。通过识别这些系统的功能模式,攻击者可以修改ANNs的输入,以便ANN找到一个人类观察者无法识别的匹配。比如,攻击者可以对图像进行稍微的改变,使得ANN找到一个与之匹配的图像,即使这个图像看起来和人类的搜索目标完全不同。这种操作称之为对抗攻击。2016年,研究员在试错使用了一些医生的图像并改变了其焦点生成了新的图像就欺骗了ANN。这些修改过的图像对于人类而言并没什么区别。另一种图像显示,经过修改的图像打印出来的图片成功地欺骗了一个图像分类器。一种防御方式是反向图像搜索,把可能的假图像提交到TinEye这样的网站上,这样就可以找到其他的实例。[179]一个改进是只使用图像的一部分进行搜索,以识别可能被拍摄的图片。[180] 另一组研究表明,某种迷幻研究可能会糊弄面部识别系统,使他们认为普通人是一个名人,这可能会让一个人冒充另一个人。2017年,研究人员添加了贴纸来作为停止标志,并导致ANN误解了这些标志。[179] 然而,ANNs可以进一步进行训练,以发现欺骗的企图,潜在地引导攻击者和防御者进行类似于恶意软件行业的军备竞赛。通过反复攻击被遗传算法不断改进的防御软件来攻击防御软件。直到它欺骗了反恶意软件,同时还保留了攻击目标的能力。 另一个小组证明,某些声音可以让Google Now的语音指令系统打开一个特定的网址来下载恶意软件。[179] 在数据中毒中,虚假的数据不断地被整合进机器学习的训练集中来阻止其达到掌握。[179]
引用错误:<ref>标签存在,但没有找到<references/>标签

个人工具
名字空间
操作
导航
工具箱