少数民族语言文字信息化建设
(一)信息化建设步伐不断提速
从2004年第一款少数民族语言文字手机——维吾尔文手机正式发布,到2007年蒙古文手机推出,都显示了少数民族文字信息步伐的加快[32]。从2005年7月第一家西藏藏语言文字网开通,到2011年1月,我国已开通藏文网站58家[33]。少数民族语言文字成果的表现形式包括专著、论文、资源库、软件、数据库等。从开发领域来看,民族文字信息处理已经发展到一个新的阶段,即由过去主要以编码平台建设和操作系统开发转到以民族文字文本研究为对象的较高阶段的研究,包括文本分词与标注、文本内容计算、文本知识表达、文本分类、知识抽取、语义表达、语义标注、句法分析、机器翻译等。在近十几年中,民族文字计算处理与应用研究领域产生了一系列的研究成果。伴随着信息技术的发展和互联网的使用,各民族的生活方式和交际方式都发生了很大的变化。国家也采取了各种措施,并且投入了大量的资金,对维吾尔文、藏文、蒙古文、哈萨克文等传统通用的少数民族文字进行了信息化、规范化的建设。同时,地方也不断出台保护民族语言文字的法律法规,如《广西壮族自治区壮汉双语教育发展规划(2016—2020年)》《四川省甘孜藏族自治州藏族语言文字条例》《四川省峨边彝族自治县语言文字条例》等,进一步加大了民族语言文字的保护工作。
(二)信息处理系统不断丰富
1.彝文信息处理系统。彝族人口数量多,共有800多万人口(2010年统计),分布在云南、四川、贵州、广西,同时,彝族也是一个跨界民族,越南、泰国、缅甸、老挝、柬埔寨等国都有分布。彝语属汉藏语系藏佰语族彝语支,分为六大方言区,《彝文规范方案》(国务院1980年70号文)中共有1165个字符。彝文的规范化、信息化建设的一系列国家规范、标准及规范已经形成,信息处理已经达到实用化水平,并在实际应用中日趋成熟。已建设完成一批颇具影响的信息处理的彝文资源库。今后,将在文字识别、语音识别、机器翻译及其他民族语言对照词库、跨平台操作以及计算机彝文网络系统开发等方面进一步拓展,更有利于民族数字阅读,对弘扬民族文化具有重要的科学意义和社会意义。2011年,统一制定了注音符号,共有1251个音节,5589个字,进入了全国通用彝文阶段。彝文信息处理于1982年开始,至今已经30多年。彝文信息处理系统的主要研究成果有《PGYW彝文计算机》(1982年)、《微型计算机文字处理系统YWCL》(1984年)、《计算机激光彝文/汉文编辑排版系统》(1986年)、《计算机激光彝文/汉文/西文系统》(1985—1986年)》《北大方正彝文照排系统》(1992年)、《YWPS彝文桌面办公系统》(1995年)、《YWUC彝文系统》《YWWIN彝文系统》《计算机彝文字幕系统YWZM》等,使彝文信息系统具有了全拼输入、文字编辑、图像播放、艺术绘画、界面菜单、视频等几十种功能。
2.藏文文献资源数据中心。2016年8月在中国藏学研究中心成立,为更好地保护和发展藏族文化,科学研究提供了信息资源保障。当前,少数民族信息处理包括字、词、短语、句子、篇章等多层面的研究。字符显示、编码、输入等得到了很好的解决。中国社会科学院民族学与人类学研究所、中国科学院软件研究所和计算研究所、清华大学、西藏大学、西北民族大学、青海师范大学、中央民族大学等科研院所在民族文字信息处理领域已经积累了丰富的科研成果,这些成果内容不仅包括基础资源建设,也包括应用层面的软件开发,涉及民族语言的分词研究、语料库、知识库建设、文本分类、知识抽取、命名实体识别、文本识别、手写体识别、民汉、汉民机器翻译等。如今,贴近藏族群众生活的互联网服务功能真是越来越多了。有了藏文界面,手机应用方便多了,许多人可以用藏文进行QQ聊天。
3.蒙古文信息处理。20世纪70年代末期,计算机中文信息处理事业蓬勃发展。1981年,MHJ-1型蒙古语分析软件被研发出。1984年,《微机蒙古文图书目录管理系统》得以应用。1985年,《蒙古文、汉文、西文操作系统MCDOS2.1》软件开始应用。1988年,开放了“华光V型蒙古文书刊、图表、报纸、激光照排软件系统”和“蒙古、藏、维吾尔、哈萨克、朝鲜、满、汉文操作系统”。2001年,《信息处理交换用蒙古文七位和八位编码图形字符集》国家标准出台。
4.维吾尔文信息处理。近年来,建设有维文信息处理系统、维吾尔语音语料库、维语输入法等信息系统,对语音信息化、语音通讯、语音教学、语音识别、语音合成等系统提供有效依据。其中,维语输入法在新疆比较广泛,大量应用的维、哈、克三种语言的标准code输入法,大大减轻了用户输入维语的困扰,为新疆少数民族提供了不少方便。
(三)民族文化资源转化为阅读资源的潜在价值
民族文化资源是一个民族(或族群)在长期从事文化活动的过程中所创造出来的,具有潜在经济价值的物质、精神成果总和。这些成果的产生,需要一些基本的集体性生产条件,比如共同的地理环境、经济环境、语言、习俗、信仰等。作为民族文化资源的物质成果,其具体表现形式有民族文化遗址、民族建筑、民族饮食、传统生产工具、生活用具、服饰器具、手工产品等。作为民族文化资源的精神成果,其具体表现形式有民族信仰、民族技艺、民族习俗、民族文艺等。涵盖了包括汉族在内的各个民族的具有潜在经济价值的物质、精神成果;狭义的民族文化资源,则专指少数民族的具有潜在经济价值的物质、精神成果。本文所要讨论的民族文化资源,采用的是对这个概念的狭义界定。由于许多少数民族如四川彝族、西藏藏族都是直过民族(从奴隶社会直接到社会主义社会,没有经过封建社会),根据民族文化资源所具有的可供现实开发的难易,少数民族文化资源可以划分为三个层次(以甘肃为例):
1.显性文化资源。即能够直接产生经济价值的民族文化资源,可以分为民间美术作品、传统手工技艺产品、传统医药、民族餐饮、民族文化景观五大类型(以甘肃民族文化资源中的典型显性文化资源为例):(1)美术作品。包括临夏砖雕、甘南藏族唐卡、天祝唐卡绘画、卓尼木雕、阿克塞哈萨克族刺绣、裕固族刺绣、临夏刻葫芦等。(2)传统手工技艺产品。包括保安族腰刀、裕固族服饰、蒙古族服饰、东乡族毛毡、东乡族钉匠、裕固族皮雕、裕固族褐子、肃北蒙古族马头琴、肃北蒙古族马上用具、夏河金属饰品、夏河擦擦佛像印版、舟曲织锦带、迭部榻板房、阿克塞哈萨克族毡房等。(3)传统医药。包括甘南藏医药、华锐藏医藏药、临夏北塬金氏接骨等。(4)民族餐饮。包括清真次食、东乡手抓羊肉、河州黄酒等。(5)民族文化景观。包括临夏八坊十三巷、少数民族特色村寨等。
2.隐性文化资源。即需要深度开发才能产生经济价值的民族文化资源,可以分为民俗仪式、民间信仰、民间文学、民间杂技与竞技四种类型(以甘肃民族文化资源中的典型隐性文化资源为例):(1)民俗仪式。包括桑吉曼拉节、巴寨朝水节、天干吉祥节、博峪采花节、香浪节、天祝土族婚礼、裕固族剪马鬃、裕固族留头羊等。(2)民间信仰。包括毛兰木法会、裕固族祭鄂博等。(3)民间文学。东乡族叙事长诗《米拉尕黑》、天祝土族《格萨尔》、肃北蒙古族祝赞词等。(4)民间游艺与竞技。包括肃北草原蒙古族那达慕、哈萨克叼羊、哈萨克姑娘追、哈萨克族赛马、藏族赛马、藏族赛牦牛等。
3.间接文化资源。即需要借助舞台等展示途径,通过表演等形式来销售,从而获得经济价值的民族文化资源,可以分为民间音乐、民间舞蹈、传统戏剧、曲艺四种类型(以甘肃民族文化资源中的典型间接文化资源为例):(1)民间音乐。包括藏族民歌、裕固族民歌、卓尼土族民歌等。(2)民间舞蹈。包括巴当舞、文县池哥昼、巴郎鼓舞、多地舞、天祝土族安召、华锐则柔、木家藏族凶猛舞、哈钦木、摆阵舞、尕巴舞、锅庄舞等。(3)民间戏曲。包括“南木特”藏戏。(4)曲艺。包括肃北草原蒙古族那达慕、哈萨克族阿依特斯、河州贤孝、河州平弦、回族宴席曲、甘南“则肉”、藏族扎宁等。