3.6.2 特征属性的选择和归一化
如何选择数据集的特征属性来表征网络行为模式对网络入侵检测系统来说十分重要,必须使模式既能充分刻画网络行为,又便于界定自我和非我的网络属性特征,且对网络行为的合法改变(如安装新的软件、增加新的用户和用户行为的正常变化)表现出惰性,而又敏感于非法的或不可接受的行为,同时也便于提取有意义的入侵特征知识。
异常和正常行为的特征往往会体现在事件记录的某些特征属性上,如根据报头信息:连接持续时间、协议类型、网络服务类型、连接状态标志等。而现阶段网络入侵检测的免疫模型研究中,检测器仅仅是提取基本的网络连接属性(如源IP地址、目的IP地址和服务)作为检测依据,并不能充分地刻画网络行为,无法很好地界定自我和非我的网络行为,也不便于提取有意义的入侵特征知识,虽降低了建模的代价和便于模型性能的理论分析,但系统的实用性却很低。然而特征个数并不是越多越好,随着特征个数增加,一方面会带来计算的复杂程度和存储容量的增加,影响了入侵检测系统的实时性,同时也可能会因为增加了部分不相关特征反而降低了系统区分自我和非我的性能,即判据不具有单调性,因此特征属性的选择对于检测系统有很大的影响,这也是入侵检测研究领域的一个热点。许多学者进行了相关的研究,这里不做详细讨论。本书结合建模思路和IAIDM模型的特点,在表3-2的基础上选取了网络连接的8个特征属性:①Service IP,②Client IP,③Service port,④Client port,⑤Duration,⑥Service,⑦Bytes,⑧Flags。
这里的特征属性Client IP是指发起网络连接的主机IP地址即客户端,包括局域网内部主机和外部主机;特征属性Service IP是指局域网内提供服务的主机IP地址即服务端。
描述系统和网络行为的特征属性是不规则分布的,其中多个特征属性使用不同的度量单位,其取值范围可能相差很大,而相似性度量对输入向量中特征属性的值域非常敏感,这就使得在计算两个事件记录对象的相似度时,某些特征属性占据了主导地位,对相似度起了决定性作用,掩盖了其他一些特征属性的影响。例如:包含3个特征属性的两个事件记录对象:x=(24.3,4030,1.5),y=(11.5,1578,0.6),由欧氏距离计算对象x,y的相似度为:
可见其相似度大小主要由第二个特征属性决定。这显然不能正确地反映两个事件记录对象之间的差异,将直接影响到检验的结果。为了消除某些特征属性值对相似度的决定性作用,均衡各个特征属性值的影响,使结果更准确,需要把网络行为集中的事件记录对象归一化到标准的单位超立体中。
从长时间来看,网络行为集中的事件记录对象的特征属性值是在一定范围内的,它们是有一定规律的,是服从一定分布的。因此,网络行为集正确地反映了特征属性的范围和特征属性值的分布。根据网络行为集的分布,把事件记录对象归一化到一个标准的单位特征度量空间,即用单位特征向量来表示事件记录对象,从而解决了因为特征属性度量不同所产生的不平衡问题。
我们选取的8个特征属性分别归一化处理如下。
❖Client IP:IP地址分为4段,每一段取值范围为[0,256],各段分别映射到单位特征度量空间中,即采用4维空间来描述IP地址,且各段地址值如果是局域网内的主机IP地址,则前三段置为0。
❖Service IP:取IP地址第4段映射到单位特征度量空间中,地址值
❖Duration,port和Bytes:分别映射到单位特征度量空间中,且取值范围由
❖Service和Flags:Service分为http、telnet和ftp等,而Flags分为SF、S0、S1和S2等,其归一化方法是预先确定实验数据集中Service和Flags的种类,在0和1之间的取值范围内用不同的数值来表示,如http表示为0.15而ftp表示为0.25等。
对网络行为集中的所有事件记录对象进行上述归一化操作,将其从8维的初始空间转换到新的14维单位特征度量空间。这样,所有特征属性都归一到统一的度量下,从而能够正确地反映出事件记录对象之间的相似度。
事件记录对象的归一化消除了某些特征属性值对相似度的决定性作用,均衡了各个特征属性值的影响。而在入侵检测领域,某些特征属性如连接标记比另一些特征属性如协议类型更能说明入侵行为的出现,即事件记录对象间,前者的差异在构成相似度方面应该比后者更重要。但实际上,既要对不同特征属性之间的关系进行定性分析,又要确定其定量比例,将给算法的实现带来较大的困难。更重要的是,建模目标是能够检测各种未知入侵的自适应系统,而这种带有先验性的对特定数据分布、特定特征属性集经过精心调整得到的参数必将损害算法的普遍性和适应性。基于此考虑,计算相似度时没有对各个特征属性进行权值设定。IAIDM模型采用标准的欧氏距离度量来计算特征向量间的距离。