4.2.3 GeM模型的应用举偶

4.2.3 GeM模型的应用举偶

4.2.3.1 多模态页面、文档语料库的标注与检索

Bateman试图建立一个多模态页面、文档语料库,其首要的任务是对所收集的页面、文档进行切分与标注,以便此后进行多模态、多媒体检索。

Bateman以另一个Gannet页面为例,主要从基础层、版面层和修辞部分三个层次对页面进行分解,并标注了该页面在不同层次中的特征。在此基础上,就可以进一步从中归纳总结出同一文类的页面、文档所具有的共同特征及其在不同层次中的分布规律。

目前,Bateman等人主要采用数据存储语言XML对多模态语料库进行标注和检索,展示了GeM模型作为页面、文档标注方案的适用性。

4.2.3.2 微博的语篇结构分析

在国内,GeM模型已初步应用到了微博的语篇结构研究中。微博是一种典型的多模态语篇,也是一种具有广泛影响力的超文本语篇。因此,对于它的研究具有较强的实践意义和一定的理论价值:

(1)王祥冰(2012)从基础层、版面层、修辞层和浏览层对一则腾讯微博(英文版)进行了切分,提出其版面结构和修辞结构存在不匹配的情况:“Find”的功能是对全文起到检索作用,其标签适合于摆放到网页的主体部分而不是头部。示意图如下:

图4.10 腾讯微博(英文版)中版面结构与修辞结构不匹配现象

(2)刘洁(2013)也是从基础层、版面层、修辞层和浏览层四个层次对微博进行考察,但是发现转发微博在版面结构方面具有特殊性:微博语篇既是相对独立和完整的最小结构单位,但同时又可以不断嵌套构成更大的结构单位。这样一来,有助于从理论上反思和发展GeM模型的分析方法。

图4.11 转发微博的板式结构(刘洁,2008:29)

4.2.3.3 其他领域中的应用前景

目前,IT行业的一个热点是大数据。它的一个重要特点是数据类型繁多:除了传统的文本数据,还有网络日志、视频、图片,等等。而GeM模型正是研究如何切分与标注页面、文档中不同类型的复杂数据,以便对它们进行统一的检索。因此,它在大数据时代具有广阔的应用前景。

对于外语教学而言,GeM模型也有助于对多模态语言材料(例如多媒体教材以及音频、视频教辅材料等)进行小颗粒切分和标注,从而有利于实现快速的检索与定位。

此外,GeM模型还可以进一步应用于其他领域,例如设计领域中的广告设计、平面设计、手机页面设计,等等。