语音识别技术在智能审计中的运用初探
发布时间:2021-12-16 05:01
本文从人工智能领域及其中语音识别技术的发展背景与应用情况入手,结合非结构化数据,分析阐述现有语音识别技术基础模型及特点,探析语音识别技术在商业银行智能审计领域运用的可能性。
【文章来源】:中国内部审计. 2020,(01)
【文章页数】:7 页
【部分图文】:
批量PCM转换
3.识别工具的语音识别模块采用百度人工智能开放平台中的语音识别引擎进行语音识别,该引擎在希尔贝壳中文普通话开源语音语料库的基础上训练并提供调用接口,在经过了DNN等当代流行的语音识别模型的数年迭代发展后,已达到很好的识别效果。在自研识别工具中选中需要识别的PCM文件,即可对单个语音音频进行识别,识别速度较快,识别率在可接受范围内,并且可以对识别的结果进行半结构化的文本文件保存,如图4所示。此外,识别工具支持批量PCM音频文件的识别,并在批量识别完成后自动将每个语音文件对应的识别结果在特定的目录中保存为相应的半结构化文本文件,以供后续分析处理,如图5所示。图5 语音识别批量识别
2.在识别工具的音频识别模块中对转换好的PCM文件进行语音活动检测(Voice Activity Detection,VAD)切分。在切分前因“双录”录音含有客户敏感信息故采用Audition软件人工截去客户敏感信息。由于语音识别底层引擎并非直接对任意时长的语音进行识别,而是对数十秒内的语音段进行识别,所以需要对长段语音进行切分。而语音活动检测就是对语音端点(语音边界)进行检测的技术,即在语音的静音处进行截断。笔者自研的识别工具语音活动检测模块采用的是Google开源音视频流项目WebRTC中的语音活动检测函数模块,主要思路是对音频的每一帧计算其高斯概率分布并以此判断该帧是静音还是有语音存在,进而在连续静音后遇到语音的帧之前或连续语音后遇到静音的帧之后进行切分,以此完成对长段语音的切分。语音活动检测模块将切分好的小段语音音频提供给音频识别引擎进行识别。图3 批量PCM转换
【参考文献】:
期刊论文
[1]基于OCR的审计技术创新与实现[J]. 汪莉,叶健彪. 中国内部审计. 2019(04)
硕士论文
[1]基于DNN的语言识别系统的研究与实现[D]. 吕赫.电子科技大学 2017
本文编号:3537533
【文章来源】:中国内部审计. 2020,(01)
【文章页数】:7 页
【部分图文】:
批量PCM转换
3.识别工具的语音识别模块采用百度人工智能开放平台中的语音识别引擎进行语音识别,该引擎在希尔贝壳中文普通话开源语音语料库的基础上训练并提供调用接口,在经过了DNN等当代流行的语音识别模型的数年迭代发展后,已达到很好的识别效果。在自研识别工具中选中需要识别的PCM文件,即可对单个语音音频进行识别,识别速度较快,识别率在可接受范围内,并且可以对识别的结果进行半结构化的文本文件保存,如图4所示。此外,识别工具支持批量PCM音频文件的识别,并在批量识别完成后自动将每个语音文件对应的识别结果在特定的目录中保存为相应的半结构化文本文件,以供后续分析处理,如图5所示。图5 语音识别批量识别
2.在识别工具的音频识别模块中对转换好的PCM文件进行语音活动检测(Voice Activity Detection,VAD)切分。在切分前因“双录”录音含有客户敏感信息故采用Audition软件人工截去客户敏感信息。由于语音识别底层引擎并非直接对任意时长的语音进行识别,而是对数十秒内的语音段进行识别,所以需要对长段语音进行切分。而语音活动检测就是对语音端点(语音边界)进行检测的技术,即在语音的静音处进行截断。笔者自研的识别工具语音活动检测模块采用的是Google开源音视频流项目WebRTC中的语音活动检测函数模块,主要思路是对音频的每一帧计算其高斯概率分布并以此判断该帧是静音还是有语音存在,进而在连续静音后遇到语音的帧之前或连续语音后遇到静音的帧之后进行切分,以此完成对长段语音的切分。语音活动检测模块将切分好的小段语音音频提供给音频识别引擎进行识别。图3 批量PCM转换
【参考文献】:
期刊论文
[1]基于OCR的审计技术创新与实现[J]. 汪莉,叶健彪. 中国内部审计. 2019(04)
硕士论文
[1]基于DNN的语言识别系统的研究与实现[D]. 吕赫.电子科技大学 2017
本文编号:3537533
本文链接:https://www.wllwen.com/jingjilunwen/sjlw/3537533.html