当前位置:主页 > 科技论文 > 搜索引擎论文 >

用于大规模语料库建设的一种汉语语句切分方法

发布时间:2021-03-09 08:11
  在语音识别和语音合成大规模语料库的构建中,需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件。一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分。实验表明,使用该方法进行切分的一次成功率可以达到92.8%,参数适当调整后的二次成功率为96.3%。整个切分过程中,进行人工调整的工作量很小,适合快速构建大规模语料库。 

【文章来源】:邮电设计技术. 2019,(08)

【文章页数】:4 页

【文章目录】:
0前言
1 汉语语句自动切分方法的总体结构
2 方法具体实现
3 切分效果评估
4 结束语


【参考文献】:
期刊论文
[1]大规模语音语料库的采集、处理和研究[J]. 袁家宏.  语言学研究. 2017(01)
[2]面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J]. 才让加.  中文信息学报. 2011(06)
[3]超大规模语料库精加工技术研究[J]. 曲维光,唐旭日,俞敬松.  当代语言学. 2009(02)
[4]连续话语语料库的语音切分和标记[J]. 陈肖霞.  语言文字应用. 2000(02)
[5]汉语语音合成语料库的研究与建立[J]. 蔡莲红,赵世霞.  语言文字应用. 1999(03)

博士论文
[1]基于统计声学建模的语音合成技术研究[D]. 凌震华.中国科学技术大学 2008

硕士论文
[1]基于语音识别和语音合成的汉语语音转换技术研究[D]. 何彬.云南大学 2013
[2]中文语料库切分不一致字串分类校验方法研究[D]. 苗玺.山西大学 2006



本文编号:3072557

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3072557.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e3e6e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com