11.4 多媒体数据的压缩
11.4 多媒体数据的压缩
多媒体产品所涉及的媒体文件种类多、数据量大,保存、传送和携带不方便,因此,数据压缩技术便可解决这个问题。
数据压缩技术经历了60余年的发展过程。 早在1948年,Oliver提出了PCM(Pulse Code Modulation)编码理论即脉冲码调制编码,这标志着数据压缩技术的诞生。
11.4.1 数据压缩基本原理
数据压缩即是用最少的数码来表示信息。 数据是用来记录和传输信息的,香农创立的信息论是把数据看成是信息和冗余信息的组合,可表示为:信息量=数据量+数据冗余。
数据之所以能够被压缩,就是因为数据冗余的存在。 在声音和图像数据表示中存在着大量的冗余,通过去除这些冗余可以极大地减小原始声音及图像数据的大小。 比如在同一幅图像中,规则物体和规则背景的表面特性具有很大的相关性,这就属于可以去除的数据中的空间冗余。 数据压缩技术就是研究如何利用声音、图像数据的冗余性来减少多媒体的方法。
11.4.2 多媒体信息的数据量
多媒体信息具有注重表达、保持高质量的模拟程度、还原迅速等特点,这就需要使用大量数据来描述多媒体信息。 那么,多媒体信息的数据量是如何计算的呢?
1)文本
假设屏幕的分辨率为1024×768,屏幕上的字符为16×16点阵,每个字符用4个字节表示,则显示一屏字符所需要的存储空间为:
(1024÷16)×(768÷16)×4B=12288B(约合12k B)
2)图像
图像由像点构成,假定一幅图像显示在1024×768分辨率的屏幕上,则满屏幕像点所占用的空间为:
1024×768×log2256=768k B
3)音频
数字音频的数据量由采样频率、采样精度、声道数量三个因素决定。 假定数字采样频率是44100Hz,采样精度为16bit,双声道立体声模式,1min所需数据量为:
44100Hz×2B(16bit采样精度)×2(双声道)×60s=10MB/min
以一首乐曲或歌曲的长度为5min为例,则对应的音频数据量约为50MB。
4)视频
数字视频的数据量由采样频率、扫描速度、样本宽度三个因素决定。 我国采用带宽为5 MHz的PAL制食品信号,扫描速度为25帧/s,样本宽度为24bit,采样频率最低为10MHz,则一帧数字化图像所占用的最少存储空间为:
10(采样频率)÷25(扫描速度)×24(样本宽度)=9.6Mbit(合1.2MB)
11.4.3 数据压缩方法分类
数据压缩方法一般按照应用原则进行分类,即考虑解码后的数据与压缩之前的原始数据是否完全一致。 如果完全一致,意味着数据没有发生任何损失,对应的压缩算法形成的编码称为“无损压缩编码”;如果解码后的数据与原始数据不一致,则是“有损压缩编码”。
1)无损压缩编码
无损压缩编码是无损压缩形成的编码。 该编码在压缩时不丢失数据,还原后的数据与原始数据完全一致。 无损压缩具有可恢复性和可逆性,不存在任何误差。
无损压缩编码属于可逆编码(Reversible Coding),“可逆”是指压缩的数据可以不折不扣地还原成原始数据。 典型的可逆编码有:霍夫曼编码、算术编码、行程编码等。
可逆编码由于编码方法必须保证数据“无损”,其压缩比不高,所以数据量比较大。
可逆编码一般用于要求严格,不允许丢失数据的场合。 如医疗诊断中的成像系统、声音鉴别系统、星际探测的图像传送、卫星通信、全球定位系统、传真、网络通信等。
2)有损压缩编码
有损压缩编码是有损压缩形成的编码,该编码在压缩时舍弃部分数据,还原成的数据与原始数据存在差异,有损压缩具有不可恢复性和不可逆性。
有损压缩编码属于不可逆编码(Non Reversible Coding)。 常用的有损压缩编码有预测编码、PCM编码、量化与向量量化编码、频段划分编码、变化编码、知识编码等。
11.4.4 静态图像JPEG压缩编码技术
JPEG(Joint Photographic Experts Group)即联合图片专家组,是针对静止图像压缩制定的标准,简称JPEG标准。
JPEG标准对同一帧图像采用两种或两种以上的编码形式,以期达到质量损失不大而又保证较高压缩比的效果。 这种采用多种编码形式的处理方式叫作“混合编码方式”。
JPEG压缩标准适用于连续色调、多级灰度、彩色或黑白图像的数据压缩,其无损压缩比为4∶1,有损压缩比为100∶1~10∶1。 当有损压缩比不大于40∶1时,经压缩并还原的图像与原始图像相比,在色彩、清晰度、颜色分布等方面视觉误差不大,基本保持原始图像的风貌。 根据人类眼睛对亮度变化和颜色变化比较敏感的原理,JPEG压缩标准在对图像数据进行压缩时,着重存储亮度变化和颜色变化,舍弃人们不敏感的成分。 在还原图像时,并不重新建立原始图像,而是生成类似的图像,该图像保留了人们敏感的色彩和亮度。
JPEG标准定义了两种基本算法:第一种是差分脉冲编码调制;第二种是有失真DCT(Dis⁃crete Cosine Transform)压缩编码。
11.4.5 动态图像MPEG压缩编码技术
MPEG(Moving Picture Experts Group)即动态图像专家组,提出了适用于动态图像数据压缩的国际标准,简称MPEG标准。 该标准是一个通用标准,主要针对全动态图像,分为三个部分:MPEG视频压缩、MPEG音频压缩和MPEG系统。
MPEG标准主要有:MPEG⁃1,MPEG⁃2,MPEG⁃4,MPEG⁃7和MPEG⁃21等。 MPEG⁃1制定于1992年,为工业级标准,可适用于不同带宽的设备;被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL)、视频点播(VOD)和教育网络等。 MPEG⁃2制定于1994年,设计目标是高级工业标准的图像质量及更高的传输率,DVD影碟采用的即是MPEG⁃2标准。1999年提出的MPEG⁃4标准拥有更高的压缩比率,主要用于视像电话(Video Phone)、视像电子邮件(Video E⁃mail)和电子新闻(Electronic News)等。 MPEG⁃7的由来是1+2+4=7,开始于1996年,其目的是生成一种用来描述多媒体内容的标准;可应用于数字图书馆,如图像编目、音乐辞典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。 MPEG⁃21是在1999年12月提出的,其目标是将标准集成起来支持协调的技术以管理多媒体商务,正式名称是数字视听框架。