4.3.4 深度学习(deep learning)

4.3.4 深度 学习(deep learning)

深度学习是机器学习的第二次浪潮。深度学习的实质,是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:①强调了模型结构的深度,通常有5层、6层,甚至10层以上的隐藏层节点;②明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。

假设有一个系统S,它有n层(S1,…,Sn),它的输入是I,输出是O,形象地表示为:I=>S1=>S2=>…=>Sn=>O,如果输出O等于输入I,这意味着输入I经过每一层Si都没有任何的信息损失,即在任何一层都是原有信息(即输入I)的另外一种表示。深度学习需要自动地学习特征,假设有一堆输入I(如多幅图像或者多个文本),我们设计了一个系统S(有n层),通过调整系统中参数,使得它的输出仍然是输入I,那么就可以自动地获取输入I的一系列层次特征,即S1,…,Sn。通过这种方式,就可以实现对输入信息进行分级表达了。

深度学习模型采用了与神经网络相似的分层结构,系统是由包括输入层、隐藏层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接。

为了克服神经网络训练中的问题,DL采用了与神经网络不同的训练机制。传统神经网络中,采用的是BP算法进行训练,简单来讲就是采用迭代的算法来训练整个网络,即随机设定初值,计算当前网络的输出,然后根据当前输出和期望输出之间的差去改变前面各层的参数,直到收敛(整体是一个梯度下降法)。而深度学习整体上是一个layer-wise的训练机制。