低资源语言的无监督语音关键词检测技术综述
本文选题:检测 切入点:低资源 出处:《中国图象图形学报》2015年02期 论文类型:期刊论文
【摘要】:目的低资源(low-resource)语言的无监督的关键词检测技术近年来引起了广泛的研究兴趣。低资源语言由于缺乏足够的标注数据及相关的专家知识,使得传统的基于大词汇量语音识别系统的关键词检测技术无法使用。近年来,研究者试图寻找一种无监督的技术来完成针对低资源语言的语音关键词检测。方法首先阐述了该技术目前面临的问题与挑战,然后介绍了该技术使用的主流的基于动态时间规整的算法框架,并从特征表示、模板匹配方法、效率提升等几个重要方面介绍了近几年来主要的研究成果,最后介绍了该任务常用的系统评价标准及目前所能达到的水平,讨论了未来可能的研究方向。结果该任务的研究目前取得了很多成果,但仍处于实验室阶段,多系统融合策略导致系统庞大,而且目前还没有好的进行索引的方法,导致检测时间过长,对于低资源语音的关键词检测技术,还有很多研究工作要做。结论期望通过对目前低资源语言的无监督的关键词检测技术做出一个全面的综述,从而给研究者的工作带来便利。
[Abstract]:Objective in recent years, the unsupervised keyword detection technique in low-resource resource language has attracted wide research interest. Due to the lack of sufficient tagging data and related expert knowledge, low-resource language has attracted more and more attention in recent years. In recent years, the traditional keyword detection technology based on large vocabulary speech recognition system can not be used. Researchers are trying to find an unsupervised technique to detect speech keywords in low-resource languages. Then it introduces the mainstream algorithm framework based on dynamic time warping used in this technology, and introduces the main research results in recent years from several important aspects, such as feature representation, template matching method, efficiency improvement and so on. At last, it introduces the system evaluation standard and the level that can be achieved at present, and discusses the possible research direction in the future. Results the research on this task has made a lot of achievements at present, but it is still in the laboratory stage. The multi-system fusion strategy leads to the huge system, and there is no good indexing method, which leads to the detection time is too long, for low-resource voice keyword detection technology, Conclusion A comprehensive review of unsupervised keyword detection techniques in low-resource languages is expected to facilitate the work of researchers.
【作者单位】: 西北工业大学计算机学院陕西省语音与图像信息处理重点实验室;
【基金】:国家自然科学基金项目(61175018) 霍英东青年教师基础研究基金项目(131059)
【分类号】:TN912.3
【参考文献】
相关期刊论文 前1条
1 杨鹏;谢磊;陈虹洁;;基于分段动态时间规整和后验特征的中文语音模式发现[J];清华大学学报(自然科学版);2013年06期
【共引文献】
相关期刊论文 前2条
1 柯登峰;徐波;;互联网时代语音识别基本问题[J];中国科学:信息科学;2013年12期
2 夏菽兰;赵力;;基于状态映射的跨语种自适应研究[J];微电子学与计算机;2015年04期
相关博士学位论文 前3条
1 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
2 包叶波;基于深层神经网络的声学特征提取及其在LVCSR系统中的应用[D];中国科学技术大学;2014年
3 齐耀辉;自然口语语音识别中的声学建模研究[D];北京理工大学;2014年
相关硕士学位论文 前10条
1 李阳;基于自适应算法与多项式回归的抗噪语音识别技术[D];中国科学院深圳先进技术研究院;2013年
2 张羽;基于无关变量标准化的大词汇量语音识别技术研究[D];上海交通大学;2012年
3 夏咸军;融合主观评价与反馈的语音合成方法研究[D];中国科学技术大学;2014年
4 孔德威;基于旅游领域的问句语音识别方法研究[D];昆明理工大学;2014年
5 张旭;基于深度神经网络的语音识别研究[D];新疆大学;2014年
6 和兴敏;基于HMM算法的仿人机器人语音识别技术的研究[D];哈尔滨工业大学;2013年
7 王慧勇;基于神经网络的多方言口音汉语语音识别系统研究[D];中国科学院深圳先进技术研究院;2014年
8 李睿;异常音频事件检测研究[D];北京邮电大学;2014年
9 刘兴永;基于隐马尔科夫模型的钢琴音符识别算法研究[D];天津大学;2014年
10 郑岩;一种聋人语音教学软件设计[D];天津大学;2014年
,本文编号:1639586
本文链接:https://www.wllwen.com/kejilunwen/wltx/1639586.html