实战机器学习
上QQ阅读APP看书,第一时间看更新

1.1.2 机器学习流派

本节以华盛顿大学教授Pedro Domingos对机器学习领域流派的总结为基础,分别对机器学习的五大流派进行介绍与分析。

1.符号主义(Symbolists)

符号主义又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(符号操作系统)假设和有限合理性原理。

符号主义的核心是数理逻辑。数理逻辑在20世纪30年代开始用于描述智能行为。当计算机出现后又在计算机上实现了逻辑演绎系统,其代表性成果为1956年由Allen Newell和Herbert Simon编写的启发式程序逻辑理论家(logic theorist),它证明了38条数学定理,表明了可以应用计算机研究人的思维过程、模拟人类智能活动。

符号主义学派的研究者在1956年首先采用“人工智能”这个术语,后来又发展了启发式算法、专家系统、知识工程理论与技术,并在20世纪80年代取得很大发展。符号主义曾长期一枝独秀,为人工智能的发展做出重要贡献,尤其是专家系统的成功开发与应用,为人工智能走向工程应用和实现理论联系实际具有重要的意义。在人工智能的其他学派出现之后,符号主义仍然是人工智能的主流派别。

符号学派的代表人物包括Allen Newell、Herbert Simon、Nilsson、Tom Mitchell、Steve Muggleton、Ross Quinlan等。

2.连接主义(Connectionists)

连接主义学派又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。

连接主义学派认为人工智能源于仿生学,特别是对人脑模型的研究。它的代表性成果是1943年由生理学家McCulloch和数理逻辑学家Pitts创立的脑模型,即M-P模型。M-P模型定义了神经元结构的数学模型,奠定了连接主义学派的基础。

20世纪60~70年代,以感知机(perceptron)为代表的脑模型的研究出现过热潮,然而由于受到当时的理论模型、生物原型和技术条件的限制,脑模型研究在20世纪70年代后期至80年代初期落入低潮。直到Hopfield教授在1982年和1984年发表两篇重要论文,提出用硬件模拟神经网络以后,连接主义才又重新抬头。

1986年,Rumelhart、Hinton等人提出多层网络中的反向传播(back-propagation, BP)算法,结合了BP算法的神经网络称为BP神经网络。BP神经网络模型中采用反向传播算法所带来的问题是:基于局部梯度下降对权值进行调整容易出现梯度弥散(gradient diffusion)现象。梯度弥散的根源在于非凸目标代价函数导致求解陷入局部最优,而不是全局最优;而且,随着网络层数的增多,这种情况会越来越严重,这一问题的产生制约了神经网络的发展。与此同时,以SVM为代表的其他浅层机器学习算法被提出,并在分类、回归问题上均取得了很好的效果,其原理明显不同于神经网络模型,所以人工神经网络的发展再次进入了瓶颈期。

2006年,Geoffrey Hinton等人正式提出深度学习(deep learning, DL)的概念。他们在Science期刊发表的文章Reducing the dimensionality of data with neural networks中给出了梯度弥散问题的解决方案——通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。在2012年的ImageNet图像识别大赛中,Hinton教授领导的小组采用深度学习模型AlexNet一举夺冠,AlexNet采用ReLU激活函数,从根本上解决了梯度消失问题,并采用GPU极大地提高了模型的运算速度。同年,由斯坦福大学的吴恩达教授和Google计算机系统专家Jeff Dean共同主导的深度神经网络(deep neural network, DNN)技术在图像识别领域取得了惊人的成绩,在ImageNet评测中成功地把错误率从26%降低到了15%。2015年,Yann LeCun、Yoshua Bengio和Geoffrey Hinton共同在Nature上发表论文Deep Learning,详细介绍了深度学习技术。由于在深度学习方面的成就,三人于2018年获得了ACM图灵奖。

自深度学习技术提出后,连接主义势头大振,从模型到算法,从理论分析到工程实现,目前已经成为人工智能最为流行的一个学派。

3.进化主义(Evolutionaries)

进化主义学派认为智能要适应不断变化的环境,通过对进化的过程进行建模,产生智能行为。进化计算(evolutionary computing)是在计算机上模拟进化过程,基于“物竞天择,适者生存”的原则,不断迭代优化,直至找到最佳的结果。

在计算机科学领域,进化计算是人工智能,进一步说是智能计算(computational intelligence)中涉及组合优化问题的一个子域。其算法受生物进化过程中“优胜劣汰”的自然选择机制和遗传信息的传递规律的影响,通过程序迭代模拟这一过程,把要解决的问题看作环境,在一些可能的解组成的种群中通过自然演化寻求最优解。

运用进化理论解决问题的思想起源于20世纪50年代,从20世纪60年代至90年代,进化计算产生了4个主要分支:遗传算法(genetic algorithms, GA)、遗传编程(genetic programming, GP)、进化策略(evolution strategies, ES)、进化编程(evolutionary programming, EP)。下面将对这4个分支依次做简要的介绍。

(1)遗传算法。遗传算法是通过模拟生物界自然选择和自然遗传机制的随机化搜索算法,由美国John Henry Holand教授于1975年在专著Adaptation in Natural and Artificial Systems中首次提出。它使用某种编码技术作用于二进制数串之上(称之为染色体),其基本思想是模拟由这些串组成的种群的进化过程,通过一种有组织但随机的信息交换来重新组合那些适应性好的串。遗传算法对求解问题的本身一无所知,它仅对算法所产生的每个染色体进行评价,并根据适应性来选择染色体,使适应性好的染色体比适应性差的染色体有更多的繁殖机会。

(2)遗传编程。遗传编程由Stanford大学的John R.Koza在1992年撰写的专著Genetic Programming中提出。它采用遗传算法的基本思想,采用更为灵活的分层结构来表示解空间,这些分层结构的叶节点是问题的原始变量,中间节点则是组合这些原始变量的函数。在这种结构下,每一个分层结构对应问题的一个解,遗传编程的求解过程是使用遗传操作动态改变分层结构以获得解决方案的过程。

(3)进化策略。德国柏林工业大学的Ingo Rechenberg等人在求解流体动力学柔性弯曲管的形状优化问题时,用传统的方法很难优化设计中描述物体形状的参数,而利用生物变异的思想来随机地改变参数值获得了较好的结果。针对这一情况,他们对这一方法进行了深入的研究,形成了进化策略这一研究分支。进化策略与遗传算法的不同之处在于:进化策略直接在解空间上进行操作,强调进化过程中从父体到后代行为的自适应性和多样性,强调进化过程中搜索步长的自适应性调节,主要用于求解数值优化问题;而遗传算法是将原问题的解空间映射到位串空间之中,然后施行遗传操作,它强调个体基因结构的变化对其适应度的影响。

(4)进化编程。进化编程由美国Lawrence J.Fogel等人在20世纪60年代提出,它强调智能行为要具有能预测其所处环境的状态,并且具有按照给定的目标做出适当响应的能力。

进化计算是一种比较成熟、具有广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够有效地处理传统优化算法难以解决的复杂问题(例如NP难优化问题)。进化算法的优化要视具体情况进行算法选择,也可以与其他算法相结合,对其进行补充。对于动态数据,用进化算法求最优解可能会比较困难,种群可能会过早收敛。

4.贝叶斯(Bayesians)

统计推断是通过样本推断总体的统计方法,是统计学的一个庞大分支。统计学有两大学派,频率学派和贝叶斯学派,在统计推断的方法上各有不同。

贝叶斯学派于20世纪30年代建立,快速发展于20世纪50年代。它的理论基础是17世纪的贝叶斯(Bayes)提出的贝叶斯公式,也称贝叶斯定理或贝叶斯法则。

在探讨“不确定性”这一概念时,贝叶斯学派不去试图解释“事件本身的随机性”,而是从观察事件的“观察者”角度出发,认为不确定性来源于观察者的知识不完备,在这种情况下,通过已经观察到的证据来描述最有可能的猜测过程。因此,在贝叶斯框架下,同一件事情对于知情者而言就是确定事件,对于不知情者而言就是随机事件,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。基于这一假设,贝叶斯学派认为参数本身存在一个概率分布,并没有唯一真实参数,参数空间里的每个值都可能是真实模型使用的参数,区别只是概率不同,所以就引入了先验分布(prior distribution)和后验分布(posterior distribution)来找出参数空间每个参数值的概率。

贝叶斯学派的机器学习方法有一些共同点,首先是都使用贝叶斯公式,其次它们的目的都是最大化后验函数,只是它们对后验函数的定义不相同。下面对主要的贝叶斯派机器学习方法进行介绍:

(1)朴素贝叶斯分类器。朴素贝叶斯分类器是假设影响分类的属性(每个维度)是独立的,每个属性对分类结果的影响也是独立的。也就是说需要独立计算每个属性的后验概率,并将它们相乘作为该样本的后验概率。

(2)最大似然估计(maximum likelihood estimation, MLE)。最大似然估计假设样本属性的联合概率分布(概率密度函数)呈现某一种概率分布,通常使用高斯分布(正态分布),需要计算每一类的后验概率,即利用已知的样本结果信息反推具有最大概率导致这些样本结果出现的模型参数值。

(3)最大后验估计(maximum a posteriori, MAP)。最大后验估计是在给定样本的情况下,最大化模型参数的后验概率。MAP根据已知样本来通过调整模型参数,使得模型能够产生该数据样本的概率最大,只不过对于模型参数有了一个先验假设,即模型参数可能满足某种分布,不再一味地依赖数据样例。

贝叶斯学派的主要代表学者包括David Heckerman、Judea Pearl和Michael Jordan。

5.行为类比(Analogizers)

行为类比学派的基本观点为:我们所做的一切、所学习的一切都是通过类比法推理得出的。所谓的类比推理法,即观察我们需要做出决定的新情景和我们已经熟悉的情景之间的相似度。

Peter Hart是行为类比学派的先驱,他证实了有些事物是与最佳临近算法相关的,这种思想形成了最初的、基于相似度的算法。Vladimir Vapnik发明了支持向量机、内核机,成为当时运用最广、最成功的基于相似度学习机。

行为类比学派著名的研究成果包括最佳近邻算法和内核机(kernel machines),其最著名的应用场景为推荐系统(recommender system)。该学派的主要代表学者包括Peter Hart、Vladimir Vapnik和Douglas Hofstadter。