5.5.6　音频文件的压缩

2025年09月21日

版权

5.5.6　音频文件的压缩

音频模拟信号经过采样、量化和编码后变为音频数字信号，需占用大量的存储空间。例如，一个采样频率为44.1kHz，量化位数为16bit，声音为立体声，播放时间为60s的音频数字信号占用的存储空间达到10MB。因此，多媒体应用中，需要将音频数据进行压缩，然后再进行存储，以减少音频信息的存储空间。

音频编码后的数据是一维的，是随着时间变化的二进制数字序列。对于同一段音频信息，在保证音频质量的前提下，尽可能缩短这个序列，就是音频文件压缩追求的目标。

音频文件压缩的一种典型思想是：非均匀量化。与非均匀量化不同的是均匀量化，所谓均匀量化，指的是在音频模拟信号的整个幅值范围内，使用统一的量化位数，将幅值划分为相同数目的区段，落在同一个区段的幅值使用相同的二进制代码。均匀量化的不足是：由于没有利用音频信息的特点，所以数据量大，样本位数大。而非均匀量化指的是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。因此，对于同一个音频信息，在保证音频信息质量的前提下，非均匀量化比均匀量化获得的二进制数字序列更短，达到了压缩的效果。

无损音频压缩：利用信息冗余进行数据压缩，虽然缩小了音频的储存大小，但可以保留原始文件的所有信息，在播放上与原始文件没有任何差别。利用信息冗余来进行压缩的示例如下：假设今天要传递的消息是一间教室的哪些座位为空位。相较于传递每个座位的个别信息一连串的消息，直接传递哪几排座位为空位更能节省消息的大小。因此无损压缩的压缩率也跟数据源的一致性有关，一致性越高，压缩率越高。

Shorten是一种比较早的无损压缩格式；后来出现的有Free Lossless Audio Codec（FLAC）、Apple Lossless（ALAC）、Monkey's Audio（APE）和WavPack（WV）。

有损音频压缩：对原始文件的一些信息做一些近似处理，以得到更小的文件。压缩后文件大小原本的5％～20％（无损文件压缩为原本的50％～60％）。

有损压缩是一个不可逆的过程，但是有损压缩将人类心理学、听觉系统的识别都纳入压缩结果的考量。因此虽然压缩后文件很小，聆听者几乎分辨不出来。由于有损压缩的不可恢复性，这种格式并不适合用在需要反复存档、读取的工作上。例如音乐工作者修改乐曲内容，有损压缩较适合用在最后的用户上，最常见的有损压缩算法如MP3。

有损数据压缩常用的压缩方法为修正离散余弦（MDCT），利用人类听阈的特性以及听觉掩蔽，将不重要的声音信息舍弃。结合人类大脑听觉识别与人耳听阈的研究称为声心理学。需要注意的是，虽然有损压缩在理论上对原始文件造成损失，但这种损失不一定能被人耳分辨出来。

5.5.6 音频文件的压缩

5.5.6　音频文件的压缩