言语知觉

2026年07月27日

版权

言语知觉

言语知觉是理解他人言语的重要环节。言语知觉可以是听觉的，也可以是视觉（阅读）的。

语音知觉中的类别效应和视觉线索的影响

在我们的一般经验中，一句话当中的各个音素是独立的、互不干扰的。其实，语音总是连续的，各个音素之间总是相互影响的。例如，要发一个［pa］音，在结束［p］音之前，发音者就已经开始［a］的发音动作。又如，在汉语发音中，“啊”音往往根据前面的音分别发成“呀”或“哇”；“哥哥”中有两个一模一样的“哥”，但是前面的“哥”发长音，后面的“哥”发短音。这就是“协发音运动”（coarticulation）：当前音素的发音是从前面音素发音形成的相对位置开始的，同时还受到后面音素的影响。

图11-2　语音的频谱图

（来源：Gallotti，1999）

语音的物理特征可以用仪器描记的声音频谱图来显示。图11-2就是一句英语（This is a pen）的频谱图。从图中可以看出，音素之间可以是连续的。图11-3则说明，同一个音素［b］在不同的上下文（baby，boondoggle，bunny）中的发音是不同的。

这样一来，对语音的知觉加工似乎复杂了许多，但是一般情况下我们觉得听人说话是一件容易的事，甚至不同的口音也不会影响理解。这是因为语音知觉有一定的概括性：尽管实际听到的语音刺激千变万化，但是知觉加工使得个体可以按照类别来区分语音，从而大大提高了语音知觉的效率。

图11-3　多个［b］音的频谱图

（来源：Gallotti，1999）

利斯克和艾布拉姆森（Lisker＆Abramson，1970）的一个研究揭示了语音知觉中的类别效应。在实验中，他们利用计算机技术产生人工语音（artificial speech sounds）。举例来说，［ba］和［pa］音有一个共同点，那就是它们的口腔和嘴唇动作相同，差别仅在于嗓音启动时间（voice onset time，简称VOT，表示从辅音发出后到声带开始振动之间的时间间隔）。如果VOT为负数，表示辅音发出之前声带就开始振动了。利斯克和艾布拉姆森以0.01秒为间隔，系统地改变VOT，从－0.15到＋0.15秒，产生了31个不同的［ba］-［pa］音节。但是，当被试听到这些音节时，他们并未听出那么多不同的音节，而只能区别出两个音，那就是［ba］和［pa］。而且，当VOT小于等于＋0.03秒时，被试报告的是［ba］；当VOT大于＋0.03秒时，被试报告的是［pa］；可见，＋0.03秒将VOT分割成两个区间，同一区间内的音节（例如VOT分别为－0.05秒和－0.10秒）难以辨别，不同区间的音节（例如VOT分别为0.00秒和0.05秒）则完全能够辨别。(https://www.daowen.com)

利伯曼等人（Liberman，Harris，Hoffman＆Griffith，1981）也证明了语音识别中存在类别效应。他们同样采用计算机技术合成语音，得到由［ba］到［da］再到［ga］的14个系统变化的音节。将这些音节随机地呈现给被试，让他们加以命名。结果表明，被试对大多数音节都能够准确命名，仅仅在［b］与［d］以及［d］与［g］的交界处产生混淆，但是混淆集中在很狭窄的区间内。

上述研究结果表明，对于语音的知觉已经带有一定的概括性。这使我们能够不受说话者年龄、性别、口音等无意义特征的影响而高效率地理解别人所说的话。

对于语音的知觉还受到视觉线索的影响。例如，麦格克和麦克唐纳（McGurk＆Mac-Donald，1976）让被试听［ba］-［ba］的语音，同时观看一段录像，录像中有一位女子做［ga］-［ga］的发音动作，且动作与被试听到的［ba］-［ba］同步。结果，被试报告听到的音节既不是［ba］，也不是［ga］，而是［da］。

连续语音的知觉

在连续语音的情况下，句法、语义等上下文因素也会强烈地影响到知觉。

沃伦（Warren，1970；Warren＆Warren，1970）的一个实验研究发现，如果连续的语音流中漏掉了一个音素，听者仍能根据上下文恢复它，并且好像和实际听到一样，这就是音位恢复效应（phonetic restore effect）。其中有一个著名的实验是让被试听以下一些句子：

It was found that the*eel was on the axle.

It was found that the*eel was on the shoe.

It was found that the*eel was on the orange.

It was found that the*eel was on the table.

根据上下文，以上四个句子中的*eel分别应该是wheel，heel，peel和meal，但是录音时全都漏掉了开头的辅音［w］、［h］、［p］和［m］。尽管如此，被试没有报告察觉到漏掉了这些音素。这无疑是上下文的作用。

马斯伦-威尔逊和韦尔什（Marslen-Wilson＆Welsh，1978）的研究同样表现出上下文的影响。他们在实验中要求被试出声重复听到的言语，这些言语中某些地方的发音受到歪曲，使单词成为一个不存在的伪词，例如，将“cigarette”最后的［t］音录制成［sh］音，“cigarette”就成了一个字典里不存在的“cigaresh”。但是，只要cigaresh是在一定的上下文（例如Still，he wanted to smoke a.）中，被试报告的往往还是“cigarette”。