11．4 多媒体数据的压缩

2025年09月20日

版权

11．4 多媒体数据的压缩

多媒体产品所涉及的媒体文件种类多、数据量大，保存、传送和携带不方便，因此，数据压缩技术便可解决这个问题。

数据压缩技术经历了60余年的发展过程。早在1948年，Oliver提出了PCM（Pulse Code Modulation）编码理论即脉冲码调制编码，这标志着数据压缩技术的诞生。

11．4．1 数据压缩基本原理

数据压缩即是用最少的数码来表示信息。数据是用来记录和传输信息的，香农创立的信息论是把数据看成是信息和冗余信息的组合，可表示为：信息量＝数据量＋数据冗余。

数据之所以能够被压缩，就是因为数据冗余的存在。在声音和图像数据表示中存在着大量的冗余，通过去除这些冗余可以极大地减小原始声音及图像数据的大小。比如在同一幅图像中，规则物体和规则背景的表面特性具有很大的相关性，这就属于可以去除的数据中的空间冗余。数据压缩技术就是研究如何利用声音、图像数据的冗余性来减少多媒体的方法。

11．4．2 多媒体信息的数据量

多媒体信息具有注重表达、保持高质量的模拟程度、还原迅速等特点，这就需要使用大量数据来描述多媒体信息。那么，多媒体信息的数据量是如何计算的呢？

1）文本

假设屏幕的分辨率为1024×768，屏幕上的字符为16×16点阵，每个字符用4个字节表示，则显示一屏字符所需要的存储空间为：

（1024÷16）×（768÷16）×4B＝12288B（约合12k B）

2）图像

图像由像点构成，假定一幅图像显示在1024×768分辨率的屏幕上，则满屏幕像点所占用的空间为：

1024×768×log2256＝768k B

3）音频

数字音频的数据量由采样频率、采样精度、声道数量三个因素决定。假定数字采样频率是44100Hz，采样精度为16bit，双声道立体声模式，1min所需数据量为：

44100Hz×2B（16bit采样精度）×2（双声道）×60s＝10MB／min

以一首乐曲或歌曲的长度为5min为例，则对应的音频数据量约为50MB。

4）视频

数字视频的数据量由采样频率、扫描速度、样本宽度三个因素决定。我国采用带宽为5 MHz的PAL制食品信号，扫描速度为25帧／s，样本宽度为24bit，采样频率最低为10MHz，则一帧数字化图像所占用的最少存储空间为：

10（采样频率）÷25（扫描速度）×24（样本宽度）＝9．6Mbit（合1．2MB）

11．4．3 数据压缩方法分类

数据压缩方法一般按照应用原则进行分类，即考虑解码后的数据与压缩之前的原始数据是否完全一致。如果完全一致，意味着数据没有发生任何损失，对应的压缩算法形成的编码称为“无损压缩编码”；如果解码后的数据与原始数据不一致，则是“有损压缩编码”。

1）无损压缩编码

无损压缩编码是无损压缩形成的编码。该编码在压缩时不丢失数据，还原后的数据与原始数据完全一致。无损压缩具有可恢复性和可逆性，不存在任何误差。

无损压缩编码属于可逆编码（Reversible Coding），“可逆”是指压缩的数据可以不折不扣地还原成原始数据。典型的可逆编码有：霍夫曼编码、算术编码、行程编码等。

可逆编码由于编码方法必须保证数据“无损”，其压缩比不高，所以数据量比较大。

可逆编码一般用于要求严格，不允许丢失数据的场合。如医疗诊断中的成像系统、声音鉴别系统、星际探测的图像传送、卫星通信、全球定位系统、传真、网络通信等。

2）有损压缩编码

有损压缩编码是有损压缩形成的编码，该编码在压缩时舍弃部分数据，还原成的数据与原始数据存在差异，有损压缩具有不可恢复性和不可逆性。

有损压缩编码属于不可逆编码（Non Reversible Coding）。常用的有损压缩编码有预测编码、PCM编码、量化与向量量化编码、频段划分编码、变化编码、知识编码等。

11．4．4 静态图像JPEG压缩编码技术

JPEG（Joint Photographic Experts Group）即联合图片专家组，是针对静止图像压缩制定的标准，简称JPEG标准。

JPEG标准对同一帧图像采用两种或两种以上的编码形式，以期达到质量损失不大而又保证较高压缩比的效果。这种采用多种编码形式的处理方式叫作“混合编码方式”。

JPEG压缩标准适用于连续色调、多级灰度、彩色或黑白图像的数据压缩，其无损压缩比为4∶1，有损压缩比为100∶1～10∶1。当有损压缩比不大于40∶1时，经压缩并还原的图像与原始图像相比，在色彩、清晰度、颜色分布等方面视觉误差不大，基本保持原始图像的风貌。根据人类眼睛对亮度变化和颜色变化比较敏感的原理，JPEG压缩标准在对图像数据进行压缩时，着重存储亮度变化和颜色变化，舍弃人们不敏感的成分。在还原图像时，并不重新建立原始图像，而是生成类似的图像，该图像保留了人们敏感的色彩和亮度。

JPEG标准定义了两种基本算法：第一种是差分脉冲编码调制；第二种是有失真DCT（Dis⁃crete Cosine Transform）压缩编码。

11．4．5 动态图像MPEG压缩编码技术

MPEG（Moving Picture Experts Group）即动态图像专家组，提出了适用于动态图像数据压缩的国际标准，简称MPEG标准。该标准是一个通用标准，主要针对全动态图像，分为三个部分：MPEG视频压缩、MPEG音频压缩和MPEG系统。

MPEG标准主要有：MPEG⁃1，MPEG⁃2，MPEG⁃4，MPEG⁃7和MPEG⁃21等。 MPEG⁃1制定于1992年，为工业级标准，可适用于不同带宽的设备；被用于数字电话网络上的视频传输，如非对称数字用户线路（ADSL）、视频点播（VOD）和教育网络等。 MPEG⁃2制定于1994年，设计目标是高级工业标准的图像质量及更高的传输率，DVD影碟采用的即是MPEG⁃2标准。1999年提出的MPEG⁃4标准拥有更高的压缩比率，主要用于视像电话（Video Phone）、视像电子邮件（Video E⁃mail）和电子新闻（Electronic News）等。 MPEG⁃7的由来是1＋2＋4＝7，开始于1996年，其目的是生成一种用来描述多媒体内容的标准；可应用于数字图书馆，如图像编目、音乐辞典等；多媒体查询服务，如电话号码簿等；广播媒体选择，如广播与电视频道选取；多媒体编辑，如个性化的电子新闻服务、媒体创作等。 MPEG⁃21是在1999年12月提出的，其目标是将标准集成起来支持协调的技术以管理多媒体商务，正式名称是数字视听框架。