9.1 聚类分析

9.1 聚类分析

聚类分析是一种数值分类方法,即完全是根据数据关系进行分类。聚类分析前,所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。所以严格说来,聚类分析并不是纯粹的统计技术,它不像其他多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其他统计方法。简单说,聚类分析就是研究物以类聚的多元统计分析方法。这里的物就是我们所收集的样本,通过比较样本中各事物之间的性质,将性质相近的聚为一类,性质差别比较大的分在别的类。而所谓性质,是由一个或多个指标所组成的指标群来表达,因此如何单击指标(群)就成了研究事物的关键。

要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。简单地说,聚类分析的结果取决于变量的选择和变量值获取两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。

聚类分析的目的是对研究样本或个案的分类,即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同类,类似于判别分析。但聚类分析和判别分析不同的是,聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行。而判别分析是要先知道各种类,然后判断某个案是否属于某一类。聚类分析对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面,类似于因素分析。但是聚类分析与因素分析的区别的是,聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行。而因素分析是根据所有变量间的相关关系提取公共因子。

总之,聚类分析满足以下三条:

(1)依据研究对象的特征,对其进行分类的方法,减少研究对象的数目;

(2)各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近的事物归入一类;

(3)各指标之间具有一定的相关关系。

聚类分析简单、直观,主要应用于探索性的研究,其分析的结果可以提供多个可能的解,最后通过研究者的主观判断和后续的分析选择最终的解,也就是说聚类分析的结果具有主观性。不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解,即聚类分析只是对数字进行分析,而不检查其合理性。另外,聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。研究者在使用聚类分析时应特别注意可能影响结果的各个因素,其中异常值和特殊的变量对聚类有较大影响。

由上面的分析我们可以知道,聚类分析有很多需要注意的地方。首先,聚类分析不能自动发现和告诉你应该样本可以分成多少个类,聚类分析属于非监督类分析方法。其次,期望通过聚类分析能很清楚地找到大致相等的类或细分市场是不现实的,聚类分析是纯粹数字分析,样本聚类、变量之间的关系需要研究者决定。聚类分析无法自动给出一个最佳聚类结果,也无法根据聚类变量得到描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。需要注意的是,聚类分析是以完备的数据文件为基础的,这一数据文件除观测变量比较完备之外,一般还要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以,聚类分析前要检查各变量的量纲是否一致,不一致则需进行转换,如将各变量均作标准化转换就可保证量纲一致。

标准化的常用方法有以下4种。(1)极差规格化法

这里的x j min表示第j个指标里的最小值,x j max表示第j个指标里的最大值。

(2)标准差规格化法

这里的表 示第j个指标的平均值,Sj表示第j个指标的标准偏差。

(3)均值规格化法

(4)极大值规格化法