多轮对话语料构建中的离群对话分析
发布时间:2021-07-24 11:16
近年来,伴随着互联网计算机技术的高速发展,各大领域技术开始聚焦人工智能(Artificial Intelligence)技术,引领了一波人工智能信息时代的进步。而智能对话系统作为人工智能中的一个重要表现形式,其引起了工业界以及学术界的广泛关注。然而,构建多轮对话聊天系统需要高质量的海量口语对话语料,以便于训练智能对话系统中的口语语义理解模型等关键技术。对于对话系统中的口语对话语料,一般是从社区论坛(如贴吧、微博等)中获取并且加工而成。尽管社区论坛对话资源丰富,但这些对话往往包含了大量如游戏、购物广告等垃圾信息。此外,一些涉及辱骂等一些敏感话题也需要清除。而离群对话分析为多轮对话语料构建中的重要一环,本文从对话的主题方向切入,主要为分析多轮对话语料中偏离文档主题的句子,进而构造出一种高质量的纯净对话语料库。对于论坛文本,其形式往往长度短小,且内容较少、实时性强,传统方法收效见微。针对上述问题,本文运用了现在广为流行的深度学习技术来对社区对话语料来进行处理,本文主要研究内容包括以下几个方面:(1)首先对网络论坛数据判别文本是否含有偏离主题的句子,然后再从含有偏离主题的对话中定位出离群的句子...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
基于模型的迁移学习方法示意图
【参考文献】:
期刊论文
[1]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[2]基于词嵌入扩充的口语对话文本领域分类[J]. 杨萌萌,黄浩. 新疆大学学报(自然科学版). 2016(02)
[3]面向问答社区的答案摘要方法研究综述[J]. 刘秉权,徐振,刘峰,刘铭,孙承杰,王晓龙. 中文信息学报. 2016(01)
[4]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[5]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[6]基于LDA模型的文本分割[J]. 石晶,胡明,石鑫,戴国忠. 计算机学报. 2008(10)
[7]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生. 中文信息学报. 2007(06)
硕士论文
[1]基于词向量的短文本主题建模研究[D]. 王浩然.武汉大学 2017
[2]面向对话文本的主题分割技术研究[D]. 王炳浩.哈尔滨工业大学 2016
[3]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
本文编号:3300547
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
基于模型的迁移学习方法示意图
【参考文献】:
期刊论文
[1]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[2]基于词嵌入扩充的口语对话文本领域分类[J]. 杨萌萌,黄浩. 新疆大学学报(自然科学版). 2016(02)
[3]面向问答社区的答案摘要方法研究综述[J]. 刘秉权,徐振,刘峰,刘铭,孙承杰,王晓龙. 中文信息学报. 2016(01)
[4]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[5]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[6]基于LDA模型的文本分割[J]. 石晶,胡明,石鑫,戴国忠. 计算机学报. 2008(10)
[7]话题检测与跟踪的评测及研究综述[J]. 洪宇,张宇,刘挺,李生. 中文信息学报. 2007(06)
硕士论文
[1]基于词向量的短文本主题建模研究[D]. 王浩然.武汉大学 2017
[2]面向对话文本的主题分割技术研究[D]. 王炳浩.哈尔滨工业大学 2016
[3]基于词向量的短文本分类方法研究[D]. 江大鹏.浙江大学 2015
本文编号:3300547
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3300547.html