一、机器学习概述
随着计算机技术的发展,人们已经拥有存储和处理海量数据以及通过计算机网络从远程站点访问数据的能力。目前大多数的数据存储设备是数字设备,记录的数据也很可靠。但是,只有分析这些数据,并且将它们转换为可以利用的信息后,这些存储的数据才能变得有用。尽管人们不清楚数据产生过程的细节,但是人们知道数据产生不是完全随机的,其中存在确定的模式。
人们也许不能够完全识别数据产生的过程,但人们能够构造一个好的并且有用的近似。尽管这样的近似还不可能解释一切,但其仍然可以解释数据的某些部分;尽管识别全部过程也许是不可能的,但仍然能够发现某些模式或规律。这正是机器学习的定位。这些模式可以帮助人们理解数据产生的过程,人们可以使用这些模式进行预测:假定将来至少是不远的将来,情况与收集样本数据时没有很大的不同,则未来的预测也有望是正确的。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得的规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。很多推论问题属于无程序可循难度,所以部分机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
学习是一个有特定目的的知识获取过程,其内在行为是获取知识、积累经验、发现规律;外在表现是使系统改进性能、适应环境,从而实现系统的自我完善。不管是人还是机器的学习,大都具有这些特征。机器学习是研究如何用计算机来模拟人类学习活动和获取知识的一门学科。更严格地说,就是研究计算机获取新知识和新技能、识别现有知识、不断改善性能、实现自我完善的方法。机器学习与计算机科学、心理学、认知科学等各种学科有着密切的联系,涉及面比较广,许多理论和技术上的问题尚处于研究和讨论之中。机器学习是知识工程的三个分支(获取知识、表示知识、使用知识)之一。
机器学习的研究目标有三个:一是学习机理,使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。这个方向与认知科学的发展密切相关。二是学习方法,研究适合机器特点的各种学习理论,探讨所有可能的学习方法,比较人类学习与机器学习的异同与联系。三是应用研究,建立各种实用的机器学习系统或知识获取辅助工具。