汉语方言语音数据库的标注研究(2)
发布时间:2015-02-12 20:21
国际上公认的韵律标音标准是ToBI。ToBI是描述一种语言口语发音语调和韵律结构变化的标准框架。一个针对某种特定语言的ToBI框架系统是以对该语言的声调系统和声调与韵律结构的关系的仔细研究为基础的(例如,有调短语和任何更小的通过其他语音学手段明显标记的任何更小的韵律要素)。
3 结语
标注的语音语料库能否合用,取决于标注专家的水平和制定的标注原则。如果标注内容不合实际应用的话,就会造成资源和人力的浪费。所以标注工作应该有一套切实可行的指南或标准。
社科院语言所将他们的音段标注系统SAMPA-C和韵律标注系统C-ToBI进行扩展,可以更好地标注自然口语语音。SAMPA-C增加了基本标注集,即汉语所有的元音、辅音和声调标注符号,并且在扩展标注集中增加了福州、上海、广州方言的标注符号集。所以,从原则上讲,SAMPA-C可以标注所有的汉语方言。在韵律和音段的标注系统中,增加了副语言学和非语音学现象的标注符号,也可以用于自然口语音字转换。
为了更好地进行资源共享和数据交换,就必须有一种不依赖系统平台的标记语言,对数据库的特性和标注结果进行描写。中国科技大学在SML语言基础上设计了标记语言CSSML,对数据库和标注结果进行描写。
参考文献:
[1]孙金城,陈希清,李昌立,等.汉语普通话语音数据库[J].声学学报,1991(6).
[2]郑方.非特定人连续数字识别方法与汉语语音数据库的研究[D].北京:清华大学,1992.
[3]祖漪清.汉语连续语音数据库的语料设计[J].声学学报,1999(3).
本文编号:14527
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/14527_2.html