数字音频的特殊问题
先前描述的、所有关于动态范围和失真度的度量都可以应用于数字音频系统。但是,由于数字录音的特性,抖晃的问题几乎都不存在了。通过把来自于播放速度不匀的磁带中的信号以数字形式储存在缓冲器中,然后恢复到匀速状态,因此,在还音中传输系统所导致的任何速度上的变化都可被消除。数字系统还有一种不造成多代之间损失的能力。显然,数字音频系统的性能要优于模拟系统的性能。
然而,数字系统仍然还存在一些特有的失真问题。与模拟系统不同,数字系统要将振幅大小进行量化,这会导致一些难题,主要是为节省载体上的空间而采用某种折中办法,特别是使音频信号适合计算机使用的存储容量。如在CD-ROM或PC机上使用游戏时,这些折中方法的效果就会变得非常明显,以至于漫不经心的听众也能听出来。因此,有经验的用户应该知道采用这种折中措施后会产生什么样的问题。
这里讨论的数字音频的特殊问题适合用最常见的数字音频表现方式,即线性脉冲编码调制(pulse code modulation)。在PCM数字音频(PCM digital audio)中,量化是通过将波形振幅与量化梯级(stair-step)相比完成的,每个梯级的高度相等。量化器(模数转换器的核心)将波形振幅与最近的梯级相比较,并分配指定与阶梯级数对应的数值。
在实用设备中还有一些其他的问题,这里阐述的问题是基本PCM数字方式的内在问题。例如,一个模数转换器中如果不是所有的梯级都按序提升(比如,由于丢失了一个量化级数据),该模数转换器无疑就有缺陷。
1)量化率
量化率(resolution)是用来表现振幅大小的比特数(bit),也就是量化阶梯中的阶梯级数(量化级数)。对于CD来说,这个数值就是16bit的二进制信息,大约有65000个量化级。16bit表示的动态范围几乎可以达到96dB[6],因为量化比特数中的每一“比特”可以有6dB的动态范围,(16×6=96)。另一方面,许多低端电脑的主板和程序仅是8位的,那么只有48dB的动态范围。这对于几乎所有的节目素材来说都会产生可听噪声。因为仅有48dB的动态范围的节目素材是无法掩蔽掉噪声的。如果我们指定最大信号电平下的8dB为基准电平,那么只有40dB的信噪比。40dB的信噪比,意味着噪声的响度为基准电平位置信号响度的1/16,因而可以清楚地听到噪声。对较响的声音来说,8dB的动态余量也是相当小的。
另外,使用数字音频技术的复杂节目制作中还有一个固有的问题。要达到某一固定的量化比特数,比如16bit,如果在制作时只有一个声轨,那么16bit的信号源就可以达到这一目的。但是随着声源轨数的增加,来自每轨声源的噪声也会加在一起,结果会降低量化率。所以,16位的多轨录音机也有一个内在的缺陷——不管是以什么程度进行混音,不可能有16bit的动态范围输出。虽然可以根据公式计算出必需的、额外增加的比特数来得到所需的量化率,但公式并未考虑到声道、均衡等的电平变化。现在,数字音频中呈现出了一种趋势,即趋向于在专业设备中使用达到20bit或者更高的量化率,这在大规模的专业制作中很有用。
2)采样和混叠失真(sampling and aliasing distortion)
虽然量化是数字音频的核心,但是之前还必须进行另一个步骤——采样。采样过程是以较高的频率对声音信号进行采样,以尽量保存声音信号中的细节。这个采样率应该是信号中最高频率的两倍以上。CD的采样频率是44.1kHz,其他的专业音频使用48kHz(更低的32kHz在一些广播中使用,有些设备甚至使用96kHz的采样频率)。事实表明,最高频率两倍以上的采样率能够采集足够的信号用以重现声音。由于音频最高频率一般为20kHz,据此产生了通用的采样率。
为了在电脑光盘上和CD-ROM上节省空间来存储更多的音频信号,通常使用较低的采样频率,一般都是44.1kHz的约数,如22.05kHz,11.025kHz等等。这些低采样率遇到的问题是:信号内很可能出现超过采样频率一半的频率成分。采样过程会将这些频率成分与低频信号混淆在一起,并产生了与输入时音调的不同频率的输出。这被称之为混叠失真(aliasing)。
采样频率的一半被称为折叠频率(folding frequency)。因为混叠失真将约为采样频率一半的信号频率“折叠”了。所以任何超过采样频率一半的输入频率都会走样,并次生出一个新的频率出现在输出中。例如,如果采样频率是11kHz而信号频率是7kHz(将一段对白录到CD-ROM上,在“嘶”音中就会出现这样的频率),采样频率的一半为5.5kHz,7kHz的信号被看作是4kHz的信号(7kHz比折叠频率高1.5kHz,而4kHz则比折叠频率低1.5kHz)。
电影画面中混叠失真的例子是:当以每秒24格(fps)的速度拍摄或者说是采样时,马车车轮看起来好像是在向后转动。当马车运动达到某一速度时,摄影才能准确地呈现出马车车轮的速度。但是在快门打开、然后关闭、然后再打开的那一刻间,轮辐正好已经移动了。如果刚好旋转了一个六轮辐车轮的1/6,胶片上“看”到的轮辐却是“静止的”,这就是混叠失真。在摄影和车轮间的另一相对速率上,车轮看起来甚至“向后转动”,这很明显是虚像。
在音频中,混叠失真的声音是很特殊的。在对白信号中,声音听起来就像伴随有“嘶声”和对白中其他高频声音的“喳喳声”。这声音也许相当有用,也许会非常令人讨厌,这取决于对白中“嘶声”的强度和采样频率(越低越糟糕)。避免混叠失真的方法是用滤波器滤掉高于采样频率一半的频率。这种滤波器叫防混叠失真滤波器(anti-aliasing filter)。令人遗憾的是,大多数低采样率的模数转换器并未装配防止混叠失真滤波器。所以许多节目素材中可以很清楚的听到混叠失真。
3)颤动
在采样和数字转数字的接口中存在的问题是颤动(jitter)。这是采样中的时间偏差所导致的,结果会使一个纯音调变成了“生硬”的声音,很像刮擦抖动(scrape-flutter)。通常颤动比刮擦抖动产生的影响要小。颤动甚至还出现在数字到数字的接口上。设计较好的数字音频设备输入端会将导入的引起颤动不稳定信号“重新锁定”(re-clock),并恢复原状。
4)量化失真
量化信号振幅的过程同时也潜在地带来了一种特殊类型的失真,被称为量化失真(quantizing distortion)。当信号的振幅非常小的时候,量化失真甚至也会在一个理想的线性PCM(脉冲编码调制)系统中出现,除非采取了一些避免措施[见波动(dither)一节]。
假设有一个信号比一个量化级稍大,而且是一个纯正弦波音调。当它先上后下第一次穿过量化级的第一级电平时,信号会发生转变。正弦波的数字形式只是在高比特和低比特级间变换。结果,转换回模拟信号后会成为一个方波,而不是一个正弦波。原因是转换器对低电平信号的转换不够精确,不能区别波形,实际上正弦波只交替穿过了一个比特级。由此,正弦波在从模拟转到数字过程中,实际上被转换成了一个方波,产生了非常大的失真。此外,电平很低的信号并未完全转换,因为它无法穿越任何阶梯级。因此,任何比最小量化级(又称为最低有效位)(least significant bit)还低的低电平信号都被丢弃掉了,这是另一个明显的失真。对这些失真,有一个解决办法叫作波动(dither)。
5)波动
量化失真的影响可以通过增加一些额外的随机噪声来彻底消除,这些噪声听起来可能像“嘶声”。虽然,噪声常常被认为是系统中的有害物,但是在数字音频转换过程中随机增加波动噪声“激励”信号,可以使甚至是最弱的信号也能穿过量化阶梯级。噪声使信号随机地上下波动,使其经常地穿越阈值。通过不时加上的波动噪声使信号平衡均匀,正如听觉机制的反应,即使是远远低于阈值的最弱信号也可以听到。噪声有效地抹掉了量化梯级,使所有的量化梯级变成一个线性曲线。高频振动量大概与量化级的一级相等,因此,通过增加噪声所产生的这些有益效果是十分微弱的,而在许多声道的合成后,可能会引人注意。
波动的另一个重要任务是当声源媒介的量化率高于拷贝量化率时,降低量化的比特数。如果录音棚中录制的声音为16bit,然后在CD-ROM上转录为8bit用以发行,就会产生非常明显的听觉失真。这些不良影响可以通过增加适量的波动来降至最低。数字录像带有20bit的量化率,虽然20bit的转换器目前还不常见,但其应用已经越来越多。例如,转换成16bit的家用格式(电影的光盘版)时,就必须在转换中增加高频振动噪声。这样,比20bit的源素材较为粗糙的16bit不会引起量化失真。
增加波动噪声有许多种形式。在听觉最为敏感的2~3kHz的频率区域内将噪声的频响整形成等响曲线的样式,然后将其提升到不太能听到的10kHz以上。这样,所需要的噪声可能就“隐藏”在了频谱中最不易听到的区域内。这被称作为噪声整形波动(noise shaped dither),商业名称叫作超级比特映像(Super Bit MappingTM)。这一步骤在输出量化率的限额上对动态范围作了音质上的提升。这样,一个16bit系统的声音听起来似乎有19bit系统的动态范围。
6)数字音频系统
在设计一套数字音频系统(a digital audio system)时会需要许多的单元设备组件。因为我们要满足先前提到的各种声音指标。此外还应指出,我们在这个论述中只涉及到一种数字音频,那就是线性“脉冲编码调制”数字音频。
一套PCM(脉冲编码调制)系统的组件图包括如下几部分。按信号传输经过的顺序排列为:
·防混叠失真滤波器
·高频振动噪声发生器
·信号与噪声加法器
·模数转换器(analog-to-digital converter)
·纠错码和形成信号录制或传输条件的数字电路系统
·储存或传输数字比特流的载体
·纠错码和纠错数字电路
·数模转换器(digital-to-analog converter)
·重组滤波器(reconstruction filter)。它用于信号的输出,等同于信号输入上的防混叠失真滤波器。使数字化过程中产生的梯级量化信号变流畅,成为一个连续的模拟信号。
在一些专业的应用领域,如在数字发行拷贝中,还需要使用其它的一些技术。线性PCM(脉冲编码调制)是目前记录和存储数字音频的最常见方法。但对有限的声轨时间来说,它会消耗很大的数字音频存储空间。例如,以16bit、48kHz进行采样,结果是每个轨道每秒占用720000字节。由于数据量巨大,所以在CD-ROM或其它一些需要节省空间的领域就会使用较低的采样率和量化率。另一个解决办法是认知解码,这种方法会“扔掉”被人耳听觉机制所掩蔽的信号,使比特率降低10倍以上、而几乎听不出有人为作用的痕迹。

图3.7 线性PCM(脉冲编码调制)数字音频系统的模拟输入和输出组成部分。
7)过采样
一个音频信号有两个组成要素:振幅和频率。由于通道的信息运载容量与这两个因素作用有关,二者可相互转换。比如,无线传声器将音频信号的带宽和动态范围转换成射频通道中更宽的带宽和更小的动态范围。信号由另一个调频无线信号(FM radio)的方式表示,但是信息内容还是一样的。数字音频的两个要素分别是量化和采样。在将带宽和动态范围相互转换,“过采样”可以同无线传声器的这一过程相比较。通过高于正常的采样率的速度采样,A/D(模/数)和D/A(数/模)转换器只需要较小的动态范围就可以产生较大的动态范围效果。
过采样是人们常听说的某一特殊电路采用多少倍的过采样,一般在“4倍过采样”到“128倍过采样”之间。倍数与采样率相关,比如,一个4倍过采样的专业音频系统采样率为192kHz(4×48kHz)。过采样的基本概念是以更高频率采样,使模数转换过程中的噪声扩散在比可听频率范围更宽的频率范围内。部分的超声波噪声是听不见的,所以,扩散分布得越宽越好(采样率或过采样倍数越高)。在将数字转换成模拟音频信号的时候,只有可听阈范围内的噪声被计算在内。所以,过采样系统要比采用传统的采样率系统更接近理想的状态。过采样还降低了防混叠失真滤波器的需求。因为采样频率提升了很多,所以并不迫切需要滤波器。另一方面,过采样中还包括了一些实际的问题。比如抖颤,这是由于采样过程不够完美导致的采样时间上的细微变化。与低采样系统相比,过采样系统中的抖颤问题更为重要,所以不能确定具有最高过采样率的系统就必然是最好的系统。
[1]当然,尽管我们说的是“声带”(sound track),但这指的是那些磁片中还音的声迹还是我们所听到的声音呢?这样常常会造成歧义,例如,混响师说“这个声带棒极了”,而工程师会说“声迹的密度显示声音并不完善”。他们两个说的都对,因为这个术语本身就是有歧义的。
[2]从严格的意义上讲,音频波形的振幅可以通过模拟方式表现出来,意思是说不同于在一个媒介物上的振幅。例如调频方式把振幅变化(amplitude variation)转换成频率变化(frequency variation)用来进行传送,然后再转回振幅变化用来输出,这样的一个过程我们仍然将其归为模拟方法。
[3]虽然我们可以说数字仍然与波形保持一定的相称性,但是这种相称性已经不是非常的严格了,因为在储存振幅的过程中,波形的振幅有一个范围,在这个范围内量化设备抓取下一个二进制数之前波形振幅仍然和前一个二进制数相吻合。
[4]这是制作CD的关键技术,是由南加州大学(USC)的艾文·里德(Irving Reed)教授发展起来的。
[5]节目起源于广播实践,意思就是需要让听众听到的素材。与之相对的是存在于同一磁带上的测试音和牵引片。
[6]“几乎”这个词在这里很重要,有两个原因,第一实际中的设备没有可以达到理论上的这种程度,第二则是由于对高频振动(dither)的需要,这个以后会详细讨论。