3.6.1 评估数据集
IAIDM模型的评估数据集使用1999年美国国防部高级研究计划局(DARPA)的入侵检测评估数据,该数据是第二次入侵检测评估数据集合,虽然DARPA数据集已经过时,但据我们所知,它是极少量网络传输公共数据集之一,代表了可以复制实验结果的共同基础,因此多数研究皆依此数据集作为评估对象。该数据集共包括五周的数据,其中第一周的数据集是不包括攻击的训练数据,其余四周的数据集包括了各种攻击行为的网络连接记录并且进行了标注,这些记录所涉及的入侵行为共分为四大类:DOS——拒绝服务攻击(如Syn flood)、R2L——远程非授权访问(如密码猜测)、U2R——非授权得到超级用户权限(如缓冲区溢出)和Probing——漏洞探测或其他扫描(如端口扫描),这四大类又细分为22种不同类型的攻击。数据集中TCP连接记录的各段特征属性如表3-2所示。
表3-2 TCP连接记录特征属性项
续 表
*Flag用于表示连接终止时的TCP协议栈所处的状态,它是检测诸如SYN Flood、Portscan等攻击手段的重要属性。
数据集中网络连接记录的形式如下所示:
06.19.1998.08:06:55,00:00:01,http,1106,80,172.016.117.132,199.095.074.090,SF5450.normal
06.15.1998.09:37:10,00:00:01,ftp,4214,21,152.169.215.104,172.016.112.050,S0,0satan
由前所述,IAIDM模型经学习后进行模式识别,分为训练期和检测期。相应的模型评估数据集也分为训练数据集和检测数据集,训练数据集取之于第一周的数据集,而检测数据集则是从所有数据集中抽取部分记录组成。模型在训练期间,利用训练数据集建立起自我模式空间,在检测期间利用检测数据集来测试和评估模型的性能。