智能问答系统中答案抽取技术的研究
发布时间:2021-11-26 15:27
随着互联网技术的日益发展,在线问答社区正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用户的答案中获取满足自己需求的信息。然而,用户提供的答案的质量良莠不齐,要从众多答案中抽取质量高、过滤语义重复、生成语序正确的答案子句已成为问答社区研究中一个极具挑战性的难题。结合某安全工程研究院搭建智能问答系统中,亟需自动构建化工领域问答对的研究需求,本文以化工领域规模最大、最具权威性的海川化工论坛数据为研究对象,主要从以下三方面开展智能问答系统中答案抽取技术的研究:(1)参与社区问答的用户特征可在答案质量预测中表征丰富的辅助数据,本文构建了海川化工论坛用户问答异质信息网络,设计了两种元路径,利用Node2vec算法提取社区用户向量表示。消融实验证明,本文构建的社区论坛异质信息网络对于海川化工社区划分的有效性。(2)从论坛问题的众多回答中筛选出少量高质量答案,作为答案抽取的数据集,可提升答案抽取算法的准确性。但是海川化工论坛中存在大量没有积分评价的答案,无法直接根据积分判断答案质量,因此本文构建了一种针对化工领域的论坛答案质量预测算法。首先结合化工领...
【文章来源】:青岛科技大学山东省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
随机游走流程
青岛科技大学研究生学位论文17图2-4海川化工论坛页面Fig.2-4Haichuanchemicalforumpage本文从海川化工论坛中爬取了约一万条用户信息,以及2008-2018年间约五十万条问答信息。为了保证每个用户在异质信息网络中有充足的边信息,本文从爬取的用户中删除单个问题回答人数小于10人的问答信息,再删除没有回答过问题的用户。经过预处理,本文最终保留了4167个用户信息,5500个问题文本和11万条答案文本。表2-2列出了本文从海川化工论坛中爬取的初始数据样例。
青岛科技大学研究生学位论文25其中,),(iQcTF是词语c在中出现的次数。IDF(c)的计算公式如下:1)(1log)(csscIDF(3-5)本文中将一个问答和其答案集作为一个文档,因此公式3-5中的s代表文档总数,s(c)代表含有词语c的文档总数。用TF-IDF算法计算问答文本中每个词语c的TF-IDF值,从而得到词语c在问题和答案文本中的权重大小),(iQcK,最后利用公式3-6计算每个问题的文本向量和每个答案的文本向量。mQcKvecsenmic1i),(_(3-6)其中,sen_vec表示问题或答案的文本向量,m表示文本中词语的个数,c表示每个词的词向量,),(iQcK表示每个词的权值。3.1.3用户静态特征提取用户在注册和使用海川化工论坛的过程中,论坛记录了用户的个人信息和使用数据,如用户id、邮箱状态、空间访问量、好友数、回帖数、发言奖励状态、视频认证、性别、相册数等,如图3-3所示:图3-3用户个人资料Fig.3-3Userprofile通过整理本文爬取的4167位用户的个人信息,本文同样计算了用户各特征与回复答案质量之间的P值,最终选择性别、邮箱状态、回帖数、朋友数作为用户静态特征。iQ
【参考文献】:
期刊论文
[1]近十年协同过滤研究热点和前沿分析[J]. 项阳,徐浩楠,赵显基. 产业创新研究. 2020(06)
[2]基于隐语义模型的协同过滤构建图书推荐系统[J]. 杨杰中. 科学咨询(科技·管理). 2020(03)
[3]基于深度学习的推荐系统应用综述[J]. 吕刚,张伟. 软件工程. 2020(02)
[4]社会化问答社区用户知识贡献行为影响因素研究综述[J]. 廖建宇. 产业与科技论坛. 2020(03)
[5]一种智能问答系统的设计与实现[J]. 刘芳. 信息技术与信息化. 2019(12)
[6]特征选择算法研究综述[J]. 梁伍七,王荣华,刘克礼,李斌. 安徽广播电视大学学报. 2019(04)
[7]面向多片段答案的抽取式阅读理解模型[J]. 苏立新,郭嘉丰,范意兴,兰艳艳,徐君,程学旗. 计算机学报. 2020(05)
[8]高效图推荐算法应用研究[J]. 刘清,王帆,冯亮,夏天鹤,熊志奇,施涛. 软件导刊. 2019(08)
[9]融合深度学习和因子分解机的兴趣点签到预测研究[J]. 苏畅,彭劭闻,谢显中,刘宁宁. 计算机科学. 2019(05)
[10]因子分解机模型研究综述[J]. 赵衎衎,张良富,张静,李翠平,陈红. 软件学报. 2019(03)
硕士论文
[1]基于异质信息网络表示学习的推荐算法研究与实现[D]. 胡斌斌.北京邮电大学 2019
[2]面向非结构化文本的问答系统中答案抽取技术研究[D]. 麻俊满.哈尔滨工业大学 2019
[3]基于深度学习的候选答案句选择研究[D]. 张学武.广东工业大学 2019
[4]基于中文社区的智能问答系统的设计与研究[D]. 曹艳蓉.南京邮电大学 2018
[5]基于Word2vec的中文Web智能问答系统的研究与设计[D]. 徐成章.电子科技大学 2018
[6]基于语义推理和表示的机器阅读理解研究[D]. 李晨瑞.华东师范大学 2018
[7]在线问答社区意见型问题的答案摘要研究[D]. 程亚男.大连理工大学 2018
[8]基于深度学习的智能问答系统的研究与实现[D]. 卓越.沈阳师范大学 2018
[9]基于深度学习的答案融合方法研究[D]. 栾克鑫.哈尔滨工业大学 2017
本文编号:3520430
【文章来源】:青岛科技大学山东省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
随机游走流程
青岛科技大学研究生学位论文17图2-4海川化工论坛页面Fig.2-4Haichuanchemicalforumpage本文从海川化工论坛中爬取了约一万条用户信息,以及2008-2018年间约五十万条问答信息。为了保证每个用户在异质信息网络中有充足的边信息,本文从爬取的用户中删除单个问题回答人数小于10人的问答信息,再删除没有回答过问题的用户。经过预处理,本文最终保留了4167个用户信息,5500个问题文本和11万条答案文本。表2-2列出了本文从海川化工论坛中爬取的初始数据样例。
青岛科技大学研究生学位论文25其中,),(iQcTF是词语c在中出现的次数。IDF(c)的计算公式如下:1)(1log)(csscIDF(3-5)本文中将一个问答和其答案集作为一个文档,因此公式3-5中的s代表文档总数,s(c)代表含有词语c的文档总数。用TF-IDF算法计算问答文本中每个词语c的TF-IDF值,从而得到词语c在问题和答案文本中的权重大小),(iQcK,最后利用公式3-6计算每个问题的文本向量和每个答案的文本向量。mQcKvecsenmic1i),(_(3-6)其中,sen_vec表示问题或答案的文本向量,m表示文本中词语的个数,c表示每个词的词向量,),(iQcK表示每个词的权值。3.1.3用户静态特征提取用户在注册和使用海川化工论坛的过程中,论坛记录了用户的个人信息和使用数据,如用户id、邮箱状态、空间访问量、好友数、回帖数、发言奖励状态、视频认证、性别、相册数等,如图3-3所示:图3-3用户个人资料Fig.3-3Userprofile通过整理本文爬取的4167位用户的个人信息,本文同样计算了用户各特征与回复答案质量之间的P值,最终选择性别、邮箱状态、回帖数、朋友数作为用户静态特征。iQ
【参考文献】:
期刊论文
[1]近十年协同过滤研究热点和前沿分析[J]. 项阳,徐浩楠,赵显基. 产业创新研究. 2020(06)
[2]基于隐语义模型的协同过滤构建图书推荐系统[J]. 杨杰中. 科学咨询(科技·管理). 2020(03)
[3]基于深度学习的推荐系统应用综述[J]. 吕刚,张伟. 软件工程. 2020(02)
[4]社会化问答社区用户知识贡献行为影响因素研究综述[J]. 廖建宇. 产业与科技论坛. 2020(03)
[5]一种智能问答系统的设计与实现[J]. 刘芳. 信息技术与信息化. 2019(12)
[6]特征选择算法研究综述[J]. 梁伍七,王荣华,刘克礼,李斌. 安徽广播电视大学学报. 2019(04)
[7]面向多片段答案的抽取式阅读理解模型[J]. 苏立新,郭嘉丰,范意兴,兰艳艳,徐君,程学旗. 计算机学报. 2020(05)
[8]高效图推荐算法应用研究[J]. 刘清,王帆,冯亮,夏天鹤,熊志奇,施涛. 软件导刊. 2019(08)
[9]融合深度学习和因子分解机的兴趣点签到预测研究[J]. 苏畅,彭劭闻,谢显中,刘宁宁. 计算机科学. 2019(05)
[10]因子分解机模型研究综述[J]. 赵衎衎,张良富,张静,李翠平,陈红. 软件学报. 2019(03)
硕士论文
[1]基于异质信息网络表示学习的推荐算法研究与实现[D]. 胡斌斌.北京邮电大学 2019
[2]面向非结构化文本的问答系统中答案抽取技术研究[D]. 麻俊满.哈尔滨工业大学 2019
[3]基于深度学习的候选答案句选择研究[D]. 张学武.广东工业大学 2019
[4]基于中文社区的智能问答系统的设计与研究[D]. 曹艳蓉.南京邮电大学 2018
[5]基于Word2vec的中文Web智能问答系统的研究与设计[D]. 徐成章.电子科技大学 2018
[6]基于语义推理和表示的机器阅读理解研究[D]. 李晨瑞.华东师范大学 2018
[7]在线问答社区意见型问题的答案摘要研究[D]. 程亚男.大连理工大学 2018
[8]基于深度学习的智能问答系统的研究与实现[D]. 卓越.沈阳师范大学 2018
[9]基于深度学习的答案融合方法研究[D]. 栾克鑫.哈尔滨工业大学 2017
本文编号:3520430
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3520430.html
最近更新
教材专著