7.3 基于网络舆情载体的信息隐藏安全问题

7.3 基于网络舆情载体的信息隐藏安全问题

在正式进入正题前,我们先看一个案例,现给定如下文本。

~呜嗷呜嗷~~~啊~呜啊呜~啊啊嗷嗷嗷~呜啊啊呜啊呜~嗷啊嗷~呜嗷呜~呜呜呜嗷~~呜嗷~嗷嗷啊~呜~啊~啊~啊~呜呜啊嗷呜~啊~呜啊啊~~嗷嗷嗷啊呜嗷啊

相信一般人看了,更多的感觉是:这乱七八糟的文本,肯定是一个无聊的人发的。但是,如果在信息隐藏专家眼里,这将会引起他们极大地怀疑。

事实上,这一段看似无聊的文本,正是网络上流传的兽语(音)文本,可以通过相关的解码器解密其原文,如图7-1所示(其网址为:https://roar.iiilab.com/)。

图7-1 兽语编解码

类似上面这类现象,研究者将其归结为信息隐藏。上文的文本极易引起人们的关注和怀疑,因此是一种低级别的信息隐藏。更高级别的信息隐藏,能够做到在传递秘密信息的同时,也不会被人怀疑。

信息隐藏是一种很古老的安全性问题,无论是在东方还是西方,其思想自古就有,只是长久以来没有得到应有的普及和应用。现代化的信息隐藏技术是随着电子、计算机、通信和网络等方面的技术发展而逐渐开发出来的。目前,针对文本、CSS、Javascript、图像、音频、视频以及网页,都有大量的信息隐藏研究成果。然而在网络舆情研究领域,信息隐藏安全问题长久没有受到关注。现有的各种网络信息发布平台,其审核也主要是以关键字等形式而进行的。这种检测机制十分机械化,不仅不能很好地解决明文信息内容的安全问题,更无法解决隐藏信息内容的安全问题。

由于本书并非专门的信息隐藏专著,因此下文将不会对其做太深入地探讨,而仅挑取若干较为直观的案例进行讲解说明。

在网络舆情各种典型的载体中,网页是一种特别的存在。网页除了包含其固有的HTML格式标签,还包含了网页最主要的内容——文本,此外,网页中往往还嵌入了大量的其他的内容,例如CSS、Javascript、图像、音频、视频等各种其他二进制格式文档。因此,网页是一种极好的复合型信息隐藏载体。

网页是网络舆情信息最为重要的载体,我们无论是看新闻、逛论坛、刷微博,还是看视频,几乎都离不开网页。为了下文阐述的需要和方便,此处先对网页格式做简单的介绍。

网页的构成比较简单。它主要由两类内容组成。首先是用于结构和格式控制的HTML标签代码,其次就是嵌入这些标签代码之间的各类数据,例如文本、图片、视频等。

如下是一段精简的且未嵌入数据内容的HTML代码。

对其嵌入网页标题文字和部分正文文本后的代码如下。

在浏览器中的效果如图7-2所示。

图7-2 嵌入文字后在浏览器中的效果

从上述最为简单的HTML代码和效果图,我们可以看出,网页中所显示的仅仅只是一部分,更多的部分都是无法被用户直接看见的。针对这两个部分,我们可以从如下两个方面来设计信息的隐藏。

(1)HTML代码部分:即看不见的部分,这部分的冗余度比较大,因此极为适合进行信息的隐藏。

(2)文字部分:即用户看得见的部分,也是我们一般各类发布系统所重点关注和检测的部分。

案例1:网页信息隐藏

网页信息隐藏可供使用的特征和方法非常多。例如标签和属性名称的大小写、属性名前后的空格、属性值的引号、属性默认值的有无、标签的配对、标签结束标记之前的空格、文字的颜色、文字的大小等。

此处仅仅只针对文字的颜色来设计一个简单的信息隐藏的案例,并不考虑信息隐藏的容量、鲁棒性、隐蔽性等问题。另外,一般情况下,执行信息隐藏前都会将待隐藏的信息转换为二进制的表达,即0、1序列。在此,我们仅使用中文文字的嵌入,因此不进行二进制的转换,仅以一种比较简单的方式来进行信息嵌入。

算法核心原理思想如下。

(1)我们人眼对颜色的分辨能力有限,也就是说,有很多颜色其实不一样,不过在我们肉眼看来他们是一样的。例如在网页中,“#000000”表达黑色,但是诸如“#010101”“#101010”“#212022”等颜色,在我们肉眼看来也同样是黑色。

(2)汉字在计算机中是以内码来进行表示的,而内码又是由区位码的区码和位码同时加上十六进制A0所得到。因此,通过获取汉字的内码,可以很容易地得到其区位码(四位十六进制)。

(3)为了执行信息隐藏后,人眼不至于轻易地发现文字的颜色变化,因此将区码和位码都一分为二,并将分割之后得到的数字作为字体的颜色。

实现信息隐藏的核心伪代码如下,具体代码参见附录1。

如上代码经过信息隐藏后,得到如下代码。

虽然通过肉眼对比,我们也能够知道该代码和原始代码发生了比较大的变动,但是在实际上网的过程中,我们往往接触不到这种网页的源代码,我们接触到的仅仅只是网页源代码经过浏览器解析之后所呈现的效果。况且,即使用户上网过程中知道如何查看网页的源代码,但是用户无法判断当前网页是否隐藏了信息,更没法知道该网页所对应的原始网页代码。

上述隐藏了信息之后的代码,在浏览器中呈现的效果如图7-3所示。

图7-3 经过信息隐藏之后的网页执行效果

通过对比图7-2和图7-3,可以看出,仅凭肉眼,我们无法区分两者的差别。这正是信息隐藏的魅力所在,它可以以极具隐蔽能力的形式,通过人眼的审查,同时也能够通过一些简单的自动化审查。

实现隐藏信息提取的核心伪代码如下,具体代码参见附录1。

该提取过程无须原始载体的支持,只需要载密文本即可成功提取。实际运行效果如图7-4所示。

图7-4 网页信息隐藏演示

案例2:文本信息隐藏

文本信息隐藏主要分为两类:有格式的文本信息隐藏和无格式的文本信息隐藏。其中有格式的文本信息隐藏,主要是基于二进制化的文档,例如 PDF、Word等格式;无格式的文本信息隐藏主要是以纯文本作为载体,因此其难度更大。目前无格式的文本信息隐藏的研究,主要采用的是自然语言处理相关理论和技术,其中尤其以基于自然语言处理的文本生成为最新和最热的研究主题。

本案例将通过一个简单易懂的操作方式来实现基于纯文本载体的信息隐藏。案例文本如下。该文本也就是信息隐藏的原始文本,一般专业术语称为载体文本。

本专著系统的研究了“基于网络大数据的网络舆情涨落分析方法”,内容方面主要是围绕着网络舆情的涨落研究而系统展开的。具体而言,包括如下几个方面。

(1)网络舆情(有的译作network public opinion,有的译作internet public sentiment,还有的译作internet public opinion或online public opinion)的涵义和媒体平台特性研究。作为大数据处理的前置环节,结合前人研究成果和客观实际情况,我们对网络舆情的涵义进行了解读和延展,并对各种媒体平台进行了较为深入的研究,提出了一些新的观点,例如“操作代价”、“操作收益”等。

(2)网络数据抽取研究。作为大数据研究的基础,自动化的获取和处理网络数据是一种基本功能。因此我们深入的研究了各类网页的信息提取及结构化处理。主要包括基于逻辑链接快的网页正文抽取、多特征融合的网页正文抽取等。

(3)网络舆情热点识别研究。舆情研究必须找到研究的对象,因此是自动化识别出网络舆情热点,成为舆情涨落研究的基石。网络舆情热点的识别最重要的方面之一即文本的聚类。在该部分我们研究了基于随机n-grams文本相似度计算的随机策略以及相应的文本聚类方法。

(4)研究了形形色色的网络安全问题,例如平台安全、内容安全等。

为了信息隐藏的不可见性,我们首先将待隐藏的信息转化为二进制的表达。然后将二进制表达通过不可见字符进行表达,并将其嵌入原始文本中,即可实现信息隐藏。算法核心伪代码如下,具体代码参见附录2。

执行信息隐藏后的文本如下,也称其为载密文本。

本专著系统研究了“基于网络大数据的网络舆情涨落分析方法”,内容主要是围绕着网络舆情的涨落研究而系统展开的。具体而言,包括如下几个方面。

(1)网络舆情(有的译作network public opinion,有的译作internet public sentiment,还有的译作internet public opinion或online public opinion)的含义和媒体平台特性研究。作为大数据处理的前置环节,结合前人研究成果和客观实际情况,我们对网络舆情的含义进行了解读和延展,并对各种媒体平台进行了较为深入地研究,提出了一些新的观点,例如“ 操作代价”“操作收益”等。

(2)网络数据抽取研究。作为大数据研究的基础,自动化的获取和处理网络数据是一种基本功能。因此我们深入地研究了各类网页的信息提取及结构化处理。 主要包括基于逻辑链接块的网页正文抽取、多特征融合的网页正文抽取等。

(3)网络舆情热点识别研究。舆情研究必须找到研究的对象,因此自动化识别出网络舆情热点就成为舆情涨落研究的基石。网络舆情热点的识别最重要的方面之一即文本的聚类。在该部分我们研究了基于随机n-grams文本相似度计算的随机策略以及相应的文本聚类方法。

(4)研究了形形色色的网络安全问题 ,例如平台安全、内容安全等 。

对比原始载体文本和上述载密文本,我们发现,对阅读来讲,语义没有任何影响。若没有原文对照,可能一般人也很难意识到这份文本有问题。这正是信息隐藏与加密最大的不同之处——秘密信息可以“堂而皇之”的传播而不被无关人发现,而不像加密,表面看似很安全,但是是否加密,普通人也能很快地发现。因此从这个角度来讲,信息隐藏更为高明。

对接收方,只需要按照约定的解码方式(与隐藏编码相反)进行解码即可以从中提取出秘密信息。

解码的核心算法伪代码如下,具体代码参见附录2。

解码后,可以从载密文本中提取出密文“明日进攻”,隐藏(编码)和提取(解码)效果如图7-5所示。

图7-5 文本信息隐藏