4.6 面向行为子集的模糊划分策略
实际的网络行为十分复杂,判定其是否异常,没有明确的标准,实际上只是个程度的问题,而现阶段网络入侵检测的免疫模型研究中自我集合和非我集合存在尖锐划分的问题,显然是不适当的。
定义4.6给出了自我空间与非我空间的模糊定义,IAIDM模型的训练数据集中只包含正常网络行为的样本,这里通过对自我空间的模糊划分来实现。网络行为的样本空间分布可能呈任意形状,但在各个子类的中心区域样本呈密集分布,沿各维方向向聚类的边界移动时,样本的空间分布逐渐变得稀疏,当样本稀疏到一定程度时,意味着进入了模糊的边界区域,也就是说样本点所代表的网络行为越来越偏离正常使用模式,是攻击行为的可能性越来越大。IAIDM模型用空间网格内的样本统计信息来代替该网格内的所有点,这里引入密度等高线的概念通过对不同网格密度的c进行区分来体现这种偏离程度。
所谓密度等高线是结合等高线图的思想而提出的,在等高线图中,根据等高线不但可以确定哪些是高山,还可以根据需要找出海拔高于一定高度的山峰。对于网络入侵检测系统来说,不同的密度等高线代表着入侵检测系统的警戒阈值或网络安全的监控等级。在网络的安全环境较好的情况下,密度等高线设得较低,意味着此时的自我空间范围也越大;反之,当网络的安全环境恶劣时,密度等高线将设至在较高的水平,此时的自我空间范围也相应地收缩。密度等高线的二维平面图如图4-7所示。
图4-7中的leve 1和leve 2代表了不同密度设定的等高线,且有leve 1包含leve 2,leve 2包含leve 3,等等。设δi≥0为密度阈值,其中i=1,2,…,b为密度等级,且0≤δb<…<δ2<δ1=δmax,其中δmax=max[m(c)]。
密度等高线leve i由所有m(c)等于δi的c组成,即D(leve i)=根据m(c)的不同,将c划分为在不同的网络安全监控等级下自我空间的范围,即
密度等高线反映着自我空间的异常阈值,将异常阈值归一化到间隔[0.0,1.0]中某一个值,记为u,定义如下:
图4-7 密度等高线示意图
其中δi∈[0,δmax]且u∈[0.0,1.0]。当u=1时,IAIDM将网络安全监控等级调到最高,将绝大部分的网络访问视为不可信任的行为;当u=0时,意味着网络安全监控等级被调到最低,自我空间的范围扩展到整个模式空间,即IAIDM信任所有进入受控网络的网络访问;u在0和1之间,意味着不同程度地限定了正常网络行为的适用范围。根据网络环境的安全状况,适当调整网络的监控等级,可以缓解当前网络安全与网络服务两者之间的矛盾。
公式(4-31)是面向整个自我空间S的异常阈值u计算方法,而如表4-4所示,自我空间可能由几个自我子空间组成,代表着不同类的正常网络行为集。由于训练数据集是指在某一个特定的网络环境下的某一时间段内收集的正常网络行为数据,即训练集存在非完备性问题,这也意味着不同类型的网络数据在采集方面存在较严重的不平衡性,导致不同类的正常网络行为集在模式空间中的疏密分布不尽相同。因此某一网络行为的偏离程度衡量只是对应它所属的类而言,而不是针对整个自我空间,所以这里提出了面向行为子集的异常阈值u的计算方式。
设存在m个自我子空间F1,F2,…,Fm,有各个网络行为子集中的样本在类中心区域呈密集分布,以Fj中密度最大的空间单元为参考点,则面向Fj的异常阈值uj的定义如下:
其中=max[m(c)|c∈Fj]。
同样密度等高线也是面向行为子集的,因此需要重新定义密度等高线,设置uj∈[0.0,1.0]为各行为子集的异常阈值,其中j=1,2,…,m子集号,则不同行为子集Fi的密度等高线可定义为:
综上所述,IAIDM模型中自我空间的模糊划分是通过对不同自我子空间设置相应的异常阈值uj来实现的。具体实施方法是在训练期间,模型初始设置一个密度阈值δlow消除噪声数据或异常数据对自我空间界定的影响,对空间集合进行聚类处理,形成m个子类空间,则IAIDM模型对各子类空间的初始异常阈值为
其中i=1,2,3,…,m。在运行过程中模型根据当前的网络环境的安全状况,通过设定各个子类不同的uj,可以灵活地调整各个自我子空间的边界,进而产生更为有效的检测器。
下面对面向行为子集的异常阈值的设定方法进行实验验证。利用上节的实验结果,当ε=0.005及δlow=10时,采用MBNSA算法对E进行处理,共产生10个子空间区域,其中有6个是自我子空间,各自我子空间的初始异常阈值ui如表4-6所示。
表4-6 δlow=10时,初始异常阈值ui
表4-4中子空间1和4含有少量异类数据,表4-5中当δlow=15时,各个子空间的纯洁度达到100%,而大约占总正常记录集6.75%的数据被滤掉,使自我空间的界定不完整,引发e+的上升。针对该问题,通过适当的调整各自我子空间的异常阈值ui来进行改善,实验结果如表4-7所示。
表4-7 异常阈值ui经适当的调整后的聚类结果
表4-7中各个子空间的纯洁度达到100%,大约占总正常记录集2.31%的数据被滤掉,自我空间的界定趋于完整,有利于降低e+。
面向行为子集的入侵检测异常阈值的设定方法实现了自我空间的模糊划分,各个自我子空间范围能够得到更精细的界定,使整个自我空间能更好地反映当前的网络环境的安全状况,进而产生更有效的检测器,在较大程度上提高了模型的有效性。