基于文本分析的专家推荐系统研究

发布时间:2021-06-01 22:08
  在线问答社区已成为人们解决问题、获取知识的重要平台。然而用户在社区提问时受限于自己的用语习惯导致问题描述不准确,往往难以获得高质量的回答。因此本文提出一种基于文本分析的专家推荐系统,该系统能够针对用户所提出的问题,通过改进后的Labeled-LDA模型以及BERT模型进行建模得出最适合回答该问题的若干专家。在专家文本分类部分,考虑到原Labeled-LDA模型存在过多无用词干扰,容易造成主题湮没的缺陷,本文在原模型基础上结合TF-IDF算法、卡方检验算法以及特定领域的特殊名词库进行改进,增大能够代表某一主题的特征词权重,提高模型的分类性能。在专家推荐部分,本文先将待回答问题通过改进后的Labeled-LDA模型进行分类以获知该问题所属的领域类别,然后从该类别下的专家列表中依次取出待匹配的专家信息文本。最后采用BERT语言模型将待回答问题与待匹配的专家信息进行向量化建模,计算两者向量之间的相似度,将相似度系数较高的专家推荐给该问题的提问者。本文旨在利用上述方法实现一个育儿网用户的专家推荐系统。实验部分首先通过Scrapy-Redis分布式爬虫系统获取育儿网近十年来用户的问答信息,预处理后... 

【文章来源】:浙江工业大学浙江省

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于文本分析的专家推荐系统研究


精确度对比图

对比图,精确度,对比图,模型


浙江工业大学硕士学位论文48图5-1基于原Labeled-LDA的三种模型精确度对比图Figure5-1.ComparisonofthreemodelprecisionbasedontheoriginalLabeled-LDA图5-2基于改进Labeled-LDA的三种模型精确度对比图Figure5-2.ComparisonofthreemodelprecisionbasedonimprovedLabeled-LDA通过图5-1,图5-2可以看出本文采用改进后Labeled-LDA结合各语言模型在精确度方面比未改进的Labeled-LDA均有所提升,说明结合TF-IDF算法、卡方检

对比图,精确度,对比图,模型


浙江工业大学硕士学位论文48图5-1基于原Labeled-LDA的三种模型精确度对比图Figure5-1.ComparisonofthreemodelprecisionbasedontheoriginalLabeled-LDA图5-2基于改进Labeled-LDA的三种模型精确度对比图Figure5-2.ComparisonofthreemodelprecisionbasedonimprovedLabeled-LDA通过图5-1,图5-2可以看出本文采用改进后Labeled-LDA结合各语言模型在精确度方面比未改进的Labeled-LDA均有所提升,说明结合TF-IDF算法、卡方检

【参考文献】:
期刊论文
[1]基于语句相似度的主观试题自动阅卷模型研究[J]. 陈贤武,刘道波.  武汉大学学报(工学版). 2018(07)
[2]Convolutional neural networks for expert recommendation in community question answering[J]. Jian WANG,Jiqing SUN,Hongfei LIN,Hualei DONG,Shaowu ZHANG.  Science China(Information Sciences). 2017(11)
[3]基于隐马尔可夫模型的新型SQL注入攻击检测方法[J]. 杨连群,孟魁,王斌,韩勇.  信息网络安全. 2017(09)
[4]基于加权余弦相似度的WiFi指纹室内定位[J]. 吴赟,蒋新华,齐雁飞,蒋学芹.  上海师范大学学报(自然科学版). 2017(01)
[5]基于Jaccard相似度和位置行为的协同过滤推荐算法[J]. 李斌,张博,刘学军,章玮.  计算机科学. 2016(12)
[6]基于马氏距离的文本聚类算法在自动阅卷系统中的应用[J]. 李翠霞,谭营军,孔金生.  计算机应用与软件. 2015(04)
[7]基于改进TFIDF算法的文本分类研究[J]. 郑霖,徐德华.  计算机与现代化. 2014(09)
[8]一种网络爬虫系统中URL去重方法的研究[J]. 成功,李小正,赵全军.  中国新技术新产品. 2014(12)
[9]基于共享背景主题的Labeled LDA模型[J]. 江雨燕,李平,王清.  电子学报. 2013(09)
[10]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲.  计算机学报. 2008(04)

博士论文
[1]高性能文本分类算法研究[D]. 谭松波.中国科学院研究生院(计算技术研究所) 2006

硕士论文
[1]基于卷积神经网络的新闻文本分类问题研究[D]. 齐凯凡.西安理工大学 2018
[2]在线问答社区推荐算法研究[D]. 薛浩.电子科技大学 2018
[3]基于分布式表示的答案质量自动评价[D]. 吴芳颖.哈尔滨工业大学 2017
[4]基于装备维修的主观题自动测评研究及应用[D]. 亓子森.北京邮电大学 2017
[5]中文文本分类中卡方统计特征选择方法和TF-IDF权重计算方法的研究[D]. 姚海英.吉林大学 2016
[6]基于自然语言处理的主观题自动评分系统的研究与实现[D]. 曹建奇.北京工业大学 2015
[7]基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学 2015
[8]基于动态Labeled-LDA模型的微博主题挖掘[D]. 周先琳.合肥工业大学 2015
[9]计算机自动阅卷系统的研究与实现[D]. 马维鑫.吉林大学 2014
[10]分布式书籍网络爬虫系统的设计与实现[D]. 赵鹏程.西南交通大学 2014



本文编号:3210244

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3210244.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f230***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com