汉语方言语音数据库的标注研究
摘 要:
摘 要:对语音数据库进行标注的目的是为语言工程和与语音研究提供可靠的数据。对语料库进行统计的方法一直是目前语音分析和语音技术的主流;同时,语音的基础研究,也很少使用实验室语音进行定性分析,而趋向采用大量自然语料的定量统计分析,所以语音数据库的标注显得尤为重要。
关键词:
关键词:语料库 语音 标注 数据库
汉语方言在各个地方是应用比较广泛的语言,它在发音、韵律、词汇及其词的形态变化、组织句子结构、文章的构成等许多方面都具有各自独特的特性。汉语方言语音数据库建设是汉语方言研究不可缺少的部分。随着对汉语方言研究的深入,比如机器翻译、语音合成、语音识别、文字识别、智能检索等研究,汉语方言各个特性的量化描述需求越来越大。正是汉语方言语音数据库,为汉语方言研究提供了确凿的数据。国内各种普通话语音数据库有很大的进步,并逐渐成熟。汉语方言语音数据库还是寥寥无几,而且大多数的研究是从语言学的角度定性分析和解析,其主要目的是为了语言的共时研究、语言学研究以及民族学研究等等,而从声学和物理学的角度定量分析和解析的研究则比较少。所以,汉语方言语音数据库建设和研究,有它的历史价值和使用价值。
然而,建立汉语方言语音数据库关键的一个环节就是数据库的标注。对语音库进行标注的目的是为语言工程和与语音研究提供可靠的数据。对语料库进行统计的方法一直是目前语音分析和语音技术的主流;同时,语音的基础研究,也很少使用实验室语音进行定性分析,而趋向采用大量自然语料的定量统计分析,所以语音库标注也越来越受到人们的关注。但是,语音库的标注过程并不是人们所想象的那么简单,这本身就是一项研究工作。
根据编码标注的复杂程度,可将语音数据库的标注细分为以下几种情况:加任何处理的纯文本语料库;经过格式属性标注的语料库,如对段落、字体、字号进行标注;对识别信息进行标注,如作者、体裁、语域,以及词性标注;特殊标记,如错误附码。
1 语料库的加工处理
1.1 语料库加工处理的原理
并不是说把大量电子文本简单堆放在一起就建成了语料库,一个语料库的设计和建成总是代表某一具体领域的语言应用或满足相应的研究目的。一个计算机语料库的功能主要和下面三个因素密切相关,即库的规模、语料的分布和语料的加工深度。因为库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。
语料库的应用越来越广泛。90年代开始语料库的应用进入了蓬勃发展的阶段。如在机器翻译、语音合成与语音识别、智能搜索方面的应用。这些应用是离不开对语料库的处理和分析,基本处理和分析过程包括以下几个步骤:语音处理,指音段分析,主要用于语音识别和语音合成。正字处理指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。形态处理,即词性指定和标注码。句法处理和语用处理,对语篇进行语义指定和意义解释。图1表示出了语料库的加工过程。
为了从原始语料中得到有用的语言知识库,必须对语料库进行加工。按需要对语料库的加工可以从不同层次、不同深度两个方面来分析。单语料库的加工有:词性标注、词汇语义标注、句法标注等。
在对大规模语料的切分和标注过程中,可以采用两种方法:人工标注和自动处理。自动处理的优势在于它处理速度快、效率高、可以保持较好的一致性。但由于自然语言中存在着大量的歧义现象,而计算机自动排歧的知识不完备致使自动处理结果会有许多错误,如:将交集型和组合型字段切错,不能正确地选择合适的词类标记等,从而降低了处理的准确度。而人工标注正好相反。如果参与工作的人的语言学知识比较丰富,又有一定的知识背景,能在切分和标注过程中依据上下文信息做出准确的判断,那就很少发生歧义字段切错或词类标记标错的现象。但在大规模语料的处理过程中,由于各人对一些概念的认识水平存在差异,即使是同一个人,在不同的阶段某些认识和观点也会发生变化,这样不可避免的会使切分和标注结果出现许多不一致现象。而且纯粹由人来标注,效率不高,其处理时间也太长。
经过标注和附码的语料库使得语料库数据分析更加系统精确,也便于对特殊数据信息的提取和处理。但是,不经任何人工介入的生语料库同样具有独特的价值。在语料库建设中,一般是保持一个干净的生语料库,而把经过标注和句法分析的语料另存为一个子语料库或者独立的版本。
1.2 录音的加工
一般采集的只是生语料,还要对其进行加工,才能成为真正的方言音库。生语料需要的加工的步骤为:
第一,除录制语音中的首尾噪声。
第二,去除录音中的静音部分, 静音我们定义为:安静的条件是信号低于-38dB、长于140ms;声音的条件为高于-34dB,语音长于25ms的信号。
第三,丢弃录音格式不对的语音。比如采样率误用为8kHZ。语音保存为sfs等其他非wav文件格式等。
第四,丢弃录音质量不高的语音。主要涉及:说话人呼吸气,环境噪声,语速过快,,与提问无关的话,不是要录的方言,带有明显其他方言口音。
第五,宽音位标注。要求标注的宽音位有:元音,擦音,塞音,闭塞(静音或背景噪声),元音前响音,元音间响音,元音后响音。这里的响音是指发音时气流从口腔或鼻腔顺利流通。
第六,确认每句话的实际所属方言。判断是否受其他方言的影响,那种方言是何种方言。
第七,对录下的方言进行详细的语音标注(按国际音标或其他公认音标标注)。
第八,经过上述处理,对整个语音库进行语音学及声学统计分析。
此外,还需要对语音信号进行端点检测。端点检测算法不是实时运行的,而是从wav文件中获取语音采样,将其分帧并计算短时能量和过零率参数,然后检测。这种工作方式被称为离线处理方法,而实时的处理方法是在线的。图2是无锡话“桌子”的端点检测图样。
图2 无锡话“桌子”的端点检测(从上到下依次为:原始语音信号、短时能量、过零率)
2 语音数据库的标注
2.1 词性的标注
词性标注是语料库加工的基本层次。要进行词性标注有标注集。如何确定标注集?Penn Treebank提供了以下几点原则:一是可恢复性,从标注符号能恢复原词;二是一致性,一队词中的两个不能不同类,即一个属于异类,另一个属于另一类;三是句法功能,是一个词的词性能正确反映它的句法功能;四是不明确性,某一词的词性不明确时可以给出多个标记。
词性标注可以看成是从一种符号串到另一种符号串的映射过程,这种过程通过言语模型(言语模型,是指语言学信息及其处理的形式化)方法实现。
词类标注的作用就是消除句子中词的语法兼类。能属于多种词类的词,在实际的语言环境中只属于一种词类,那么在词类标注中指出其实际环境的正确类型。词类的正确标注是后续句法标注乃至语义标注的前提。词性标注的自动实现是目前语料库加工的基本步骤。词性标注系统有TAGGIT、Brill的方法、Constraint Grammar System、CLAWS、VOLSUNGA、Xtract等。
常见的词性标注方法有以下几种:基于规则的方法、基于统计的方法、基于统计和规则相结合的方法(隐马尔可夫模型和Brill方法相结合的方法)、应用神经网络方法、应用决策归纳示例学习方法。
2.2 音段的标注
音段标注是为每一个音段增加用国际音标来表示的音段名称。国际音标IPA是国际通用的标点符号。国际音标是以罗马字母为基础,再加上一些其他字母组成,但它不能通过计算机键盘输入。为此国际上研究了一种与IPA对应的计算机可读的语音学符号SAMPA。在1987-1989年,SAMPA首先用于欧洲语言间的通信,如丹麦语、德语、意大利语、法语和英语。现在已经扩展到许多语言。并在语言学标记的机器可读标准方面开展了非常好的国际合作。SAMPA将IPA映射到ASCII码的33~127范围内。与编码一起指导语言的语音标记。
从图3,可以看出语音中的静音和语音、声母和韵母可以通过短时能量和短时平均幅度区分出来。清音段信号随机性较强,频频穿过零点,所以短时过零率较高。而浊音段的过零率要低一些。短时能量和短时平均幅度也包含有清音和浊音的判别信息。
图3 沭阳话“上课”的时域波形图和过零率图
(分析工具为SFSWin1.30和Speech Analyzer2.4)
(横轴都为时间,上图纵轴为振幅,下图纵轴为过零率)
2.3 韵律的标注
本文编号:14527
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/14527.html