9.1.1 机器学习在企业管理领域的应用
(1)机器学习模型与传统统计回归模型的比较
机器学习涵盖范围比较广,既包括神经网络、决策树、支持向量机等基本模型,也包括深度神经网络、决策森林等变种模型;既包括基追踪、梯度下降等算法,也包括极速梯度提升等迭代算法。由于每种机器学习实例都存在不同之处,本书以基本的神经网络模型为例,与传统的统计回归模型中的普通最小二乘(ordinary least square,OLS)模型进行比较。
传统的统计回归可以建立两个函数x与y之间的关系,OLS回归法可以分成以下几类:多元线性回归、多项式回归与简单线性回归。通过最小二乘回归可以得到最优拟合直线,该直线可以使得每个离散点到这条直线的加权距离平方和最小。统计显著性检验结果与相应的置信区间的精确性和权重密切相关,每个离散点的权重根据所采用的数据估计得到。为了最大限度地发挥OLS的准确性,通过数据估计得到的权重必须精准可靠,因此,在各领域应用OLS回归时,对数据的要求比较严格,所采用的数据必须满足正态性、独立性、线性与同方差性。同时,OLS回归在理论上假定自变量为固定的且测量无误差,然而在实际应用中,该假设通常很难达到,因此在实际的使用中往往忽略这项假设。
通过比较可以发现,机器学习与OLS模型具有以下不同之处。首先,两者在实现的方法与结果上存在不同。最小二乘回归是通过求解成对数据的映射函数来实现的。根据成对样本数据的特性,寻找可以有效表达数据映射关系的函数表达式。函数表达式的不同参数值可以通过剩余标准偏差和相关系数来确定,即假定输出数据y与输入数据x的映射关系可以由公式来表示,对公式的待定系数进行求解。不同的系数设定会使得输出数据与实测数据之间的误差平方和不同,通过最小化该项误差的平方和来实现公式系数的求解,从而最终确定映射函数。而机器学习算法求解的并不是一个显示的数学公式,而是可以反映输入数据与输出数据关系的网络结构参数。网络结构参数通过最小化输出数据与实测数据间的全局误差来得到。
此外,与OLS模型所求解得到的目标函数相比,机器学习算法具有更加复杂的结构,如神经网络的参数随着网络的结构(层数、单元数、连接方式)、连接权值与阈值不同而不同。求解网络参数可以解决输入数据与输出数据间的映射问题。网络参数的取值由网络模型决定,通过对训练数据的不断学习而得到。复杂的结构与庞大的参数使得神经网络可以解决数据间的多种非线性映射关系问题,并能解决多种复杂问题。也就是说,OLS回归所求解的数学公式是一种具体的映射,而基于神经网络的回归分析实现的是一种更为复杂的隐式映射关系。该映射关系可以通过网络训练所得到的模型反映出来。网络结构的训练与所需分析的训练样本无关,不同的训练数据均可采用同样的训练方式,因此机器学习可以被广泛地应用于各种实际问题的解决中。
(2)机器学习技术在相关研究领域的应用
近年来,随着数据存储和处理手段的不断提升,机器学习技术越来越引起学术界以及工业界的关注。大数据与机器学习相结合的学术研究十分活跃,新的研究团体和学术成果不断出现,使得机器学习在理论研究和行业应用这两方面都取得了飞速的进展。越来越多地企业将机器学习手段用于商业精准营销、客户关系维护等,也有企业将其作为战略决策的辅助手段。
人工神经网络(ANN)是机器学习领域的一种仿生学算法模型,该模型是对人脑活动的抽象、简化和进一步模拟。ANN具有较好的记忆特征和泛化的能力,因此在很多交叉学科和领域都得到了广泛的应用,如企业财务预警、投资决策模型、信用风险评估等。反向传播(back propagation,BP)神经网络是目前应用最为广泛的神经网络结构,即基于反向传播算法的多层前馈网络。BP神经网络算法由Werbos(1974)首次提出,随后被Ronald等人(1986)在此基础上进行了进一步的研究和扩展。BP神经网络模型经常用于分类和预测任务中(Wu et al.,2006),它通过对数据样本的学习,有效地获取到数据之间客观的映射关系,并且不会因为较多的主观因素而影响评价的准确性。目前很多专家学者开始将BP神经网络致力于企业管理的实践和研究中,它包含企业中综合绩效的评估、对企业员工岗位胜任能力的评价、对企业中核心竞争力与技术创新效果的评测等。郭岚等人(2005)构建了一种专家模型,它基于BP神经网络,该模型将企业核心竞争力分为5个维度的评价指标,系统明确地对企业核心竞争力进行了定量的评估与分析,能够对企业竞争实施战略的制定提供有力的保障。2003年,杨廷双基于各省市高新技术企业和产品认定标准,使用改进的BP神经网络,提出了一系列模拟专家思想的高新技术企业中定量化产品的综合评估方法,实现了企业产品综合评价的智能化。
决策树是机器学习领域最常用的知识表示方法之一,包括ID3、回归树等。它是一种类似于流程图的树形结构,其结构中的每个中间节点都表示在一个属性值上的测试,每一个分支作为一种测试的输出,并且在树结构中的每个叶子节点都表示类或类的分布。于晓等人(2011)运用决策树算法,挖掘企业中员工的绩效与个人素质之间的潜在关系。采用信息增益来度量数值化绩效与素质之间的关联关系,为企业中人力资源管理工作提供重要可靠的决策依据。2009年,徐路针对企业管理中客户关系的管理问题提出了决策树方法,通过基于该算法的数据挖掘与分析能力,在海量的企业历史数据中挖掘潜在的信息,并结合ID3对客户进行详细划分,对不同客户群的业务特征进行挖掘。
随机森林算法同样是一种非线性的建模工具,通过对样本数据的不断分析和学习,完成数据的分类或者回归操作。它具有较强的自适应能力,可以很好地解决模型学习过程中缺乏先验知识、约束条件过多以及数据样本不充足等问题。2007年,彭国兰等人采用随机森林算法构建了企业中针对信用评估的相关指标体系。2009年王志红等人同样利用该算法建立了面向基金的评级结构模型,其中将信息比率作为在基金中最重要的评价指标。此外,2010年方匡南等人将非参数的随机森林算法引入到基金的超额收益率中进行预测,证明了该方法与随机游走、支持向量机等算法相比,预测效果更加精准。
作为梯度提升(gradient boosting)决策树方法的一种改进,XGBoost决策树最近以其速度和准确性引起了人们的极大关注。许多研究人员试图将其用于解决当前经管领域的问题。在企业管理方面,XGBoost可以用来帮助管理者选择合适的客户保留策略。Uzir等人(2017)发现XGBoost是帮助软件即时服务公司分析影响客户维系率因素的最佳模型。Ge等人(2017)使用不同数据集来说明XGBoost优于梯度提升,并表明XGBoost在宏观经济和银行层面的预测中具有可靠性(Thomassey et al.,2007)。Xia等人(2017)使用XGBoost建立了一个信用评分模型,发现该模型比现有的信用评分系统表现更好,这表明XGBoost在财务评估方面也具有可靠性(Penpece et al.,2014)。