当前位置:主页 > 科技论文 > 自动化论文 >

基于同异性迁移学习的短文本分类技术研究与应用

发布时间:2021-03-14 09:54
  随着人工智能及自然语言处理技术的快速发展,智能客服系统在学术与工业界获得了越来越多的关注。其中,基于常见问题及解答库(Frequently Asked Question,FAQ)的智能客服系统,由于其简单、高效、正确率高等优点,被广泛应用于许多商业服务。目前,基于FAQ的智能客服系统所依赖的短文本分类技术已取得长足进步,尤其在具有大规模平衡数据的前提下有良好表现。然而,实际的FAQ数据往往是不平衡的,即一些标准问题具有多个扩展问题,而另一些标准问题只有极少数甚至无扩展问题,这就导致依赖大规模平衡数据的短文本分类技术在实际的智能客服系统中难以取得令人满意的效果。本文提出了一种基于同异性迁移学习的短文本分类技术。通过发现大样本和小样本间的共同性和差异性,生成小样本的虚拟样本,进而缓解数据不平衡的现状,提升短文本分类正确率,最终提升智能客服系统的性能。具体说来,首先采用文本相似度度量技术,为小样本发现可迁移的大样本;接着构建基于词模板的样本生成器得到基础虚拟样本;然后以小样本和相似大样本为输入、以基础虚拟样本为输出,训练一个基于编解码框架的虚拟样本生成器,为更多的小样本生成大量的虚拟样本;最... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

基于同异性迁移学习的短文本分类技术研究与应用


图1-1?一个典型的基于FAQ的智能客服系统??1??

基于同异性迁移学习的短文本分类技术研究与应用


图1-2?—个典型的FAQ库??短文本(Short?Text)通常指字数简短的一种文本形式,如新闻标题、问题文本、??文献摘要等

基于同异性迁移学习的短文本分类技术研究与应用


图2-1前馈神经网络语言模型??图2-1所示,NNLM包括三层,即输入层(Input?Layer),隐藏层(HiddenLayer)??

【参考文献】:
期刊论文
[1]基于搜索引擎的词汇语义相似度计算方法[J]. 陈海燕.  计算机科学. 2015(01)



本文编号:3081954

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3081954.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0775***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com