基于LSTM模型的问答社区专家发现方法
发布时间:2021-07-04 18:15
随着web2.0时代的不断发展,各种社区问答平台应运而生,由于社区问答平台的开放性和知识共享性,越来越多的人喜欢把自己的问题和答案通过问答平台分享给大家。如今,社区问答平台已成为广大用户获取信息和知识共享的重要媒介。诸如百度知道、知乎、Yahoo!Answers等问答社区平台每天都会发布大量不同主题的问题,这就要求问答社区平台必须拥有充足的数据资源和强大的问题解决机制,以便帮助用户快速高效的解决问题。然而,随着问答社区平台用户量的不断增多,平台数据量迅速扩张,导致海量的平台信息会迅速覆盖提问者提出的问题,从而造成提问者不得不长时间等待其他用户的回答。与此同时,再加上大量垃圾信息和低质量答案信息的干扰,导致用户很难快速准确的获取高质量的问题答案,为用户获取答案信息增加了巨大的压力。针对以上存在的问题,本文系统的研究了问答社区中的专家发现方法,针对新提出的问题,找出相关领域能力较强的专家用户,并将专家用户推荐给提问者。主要工作包括以下几个方面:(1)基于用户历史问答信息,本文采用了主题专业水平模型TPLM(topic professional level model),该模型综合利用帖子的...
【文章来源】:昆明理工大学云南省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
用户与问答社区交互示意图
相关理论与技术11图2.2web1.0时代问答系统Web1.0时代的问答服务类似于搜索引擎,是一种阅读式的问答服务模式,用户搜索获取的内容是网站预先编辑好的内容,这个过程是网站到用户的单向行为,并不存在内容从用户到网站的过程,这样的问答服务只能机械的通过搜索关键词来返回相关内容,并不具备开放性、交互性和共享性。随着问答服务的不断成熟和发展,先前的问答服务已经不能满足和适应人们的需求。问答社区平台的出现,改变了以往人与人之间的网络交互的方式,以其互动性和共享性的特点克服传统问答模式的局限和不足,它以平台用户群为基础,强调用户需求、强化用户交流。问答社区平台的日益完善和蓬勃发展,极大的促进了人与人之间知识的共享和学习,相比传统问答模式获取信息的方式,问答社区平台大幅度提高了用户解决问题的精确度和时效性。目前国内外具有代表性的问答社区平台如表2.1所示。表2.1目前国内外具有代表性的在线问答社区网站名创建时间侧重领域网址知乎网2011多领域https://www.zhihu.com百度知道2005多领域http://zhidao.baidu.com搜狗问问2004多领域https://wenwen.sogou.com/快搜问答2005多领域http://wenda.kuaiso.com/StackOverflow2008计算机开发http://stackoverflow.comYahoo!Answer2005多领域http://answers.yahoo.comAnswer.com2005多领域http://www.answers.com
相关理论与技术13获取文本集内具有区分度的关键词,然后利用这些区分明确的关键词对用户主题偏向进行分析,最终获取用户属于各个主题的概率分布,进而挖掘各个主题下的专家用户。2.2.1LDA模型LDA(LatentDirichletAllocation)模型是一种典型的主题概率分布模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。该模型将文本集划分为不同主题,进而对文本集进行综合建模,首先获取文档在不同主题下的概率分布,在此基础上,针对不同的主题获取各个主题下的词分布信息。该模型就是利用这种关系,通过词的分布信息最终获取每个文档的主题概率分布。其概率模型图如2.3所示:图2.3LDA的图模型表示其中,D代表文档集中的所有文档,Nd表示文档集合中第d篇文档包含的单词,T代表所有文档集中包含的主题。θ代表文档的主题分布,服从超参数为α的狄利克雷分布,表示为θ~Dr(α)。代表每个话题下的单词分布,服从超参数为β的狄利克雷分布,表示为~Dr(β)。ω代表LDA模型中的观察词变量,服从参数为的多项式分布,表示为ω~Μul()。Ζ为观察变量ω的话题指派,服从参数为θ的多项式分布,表示为Ζ~Μul(θ)。其中α和β都为狄利克雷分布超参数,取值通常为固定值,α和β的经验取值一般为α=50/Κ,β=0.01。LDA模型的文档生成过程描述如下:1.对于文档集中的每篇文档d,根据超参数α采样文档d的主题分布θd~Dr(α);
【参考文献】:
期刊论文
[1]一种融合话题和行为的在线问答社区领域专家发现方法[J]. 李科霖. 计算机与现代化. 2018(09)
[2]基于LDA的多特征融合的短文本相似度计算[J]. 张小川,余林峰,张宜浩. 计算机科学. 2018(09)
[3]基于双向LSTM模型的文本情感分类[J]. 任勉,甘刚. 计算机工程与设计. 2018(07)
[4]基于Bi-LSTM和分布式表示的网页主题相关度计算[J]. 王锋,白宇,蔡东风,王铁铮. 计算机应用与软件. 2018(07)
[5]基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用[J]. 梁敬东,崔丙剑,姜海燕,沈毅,谢元澄. 南京农业大学学报. 2018(05)
[6]在线问答社区中参与者知识行为研究综述[J]. 齐云飞,赵宇翔,朱庆华. 图书情报知识. 2018(03)
[7]基于深层注意力的LSTM的特定主题情感分析[J]. 胡朝举,梁宁. 计算机应用研究. 2019(04)
[8]融合主题的CLSTM短文本情感分类[J]. 秦锋,黄超,郑啸,邵光梅. 安徽工业大学学报(自然科学版). 2017(03)
[9]基于长短期记忆多维主题情感倾向性分析模型[J]. 滕飞,郑超美,李文. 计算机应用. 2016(08)
[10]中文社区问答中问题答案质量评价和预测[J]. 李晨,巢文涵,陈小明,李舟军. 计算机科学. 2011(06)
硕士论文
[1]基于在线问答社区的领域专家发现方法研究[D]. 李科霖.北京交通大学 2018
[2]基于LSTM的文本相似度识别方法研究[D]. 杨飞.吉林大学 2018
[3]面向问答社区的专家发现方法的研究与实现[D]. 彭爽.北京邮电大学 2018
[4]社会化问答社区的社会网络分析[D]. 宋文丹.西南交通大学 2015
[5]基于深度学习的短文本语义相似度计算[D]. 陈晓阳.北京理工大学 2015
本文编号:3265288
【文章来源】:昆明理工大学云南省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
用户与问答社区交互示意图
相关理论与技术11图2.2web1.0时代问答系统Web1.0时代的问答服务类似于搜索引擎,是一种阅读式的问答服务模式,用户搜索获取的内容是网站预先编辑好的内容,这个过程是网站到用户的单向行为,并不存在内容从用户到网站的过程,这样的问答服务只能机械的通过搜索关键词来返回相关内容,并不具备开放性、交互性和共享性。随着问答服务的不断成熟和发展,先前的问答服务已经不能满足和适应人们的需求。问答社区平台的出现,改变了以往人与人之间的网络交互的方式,以其互动性和共享性的特点克服传统问答模式的局限和不足,它以平台用户群为基础,强调用户需求、强化用户交流。问答社区平台的日益完善和蓬勃发展,极大的促进了人与人之间知识的共享和学习,相比传统问答模式获取信息的方式,问答社区平台大幅度提高了用户解决问题的精确度和时效性。目前国内外具有代表性的问答社区平台如表2.1所示。表2.1目前国内外具有代表性的在线问答社区网站名创建时间侧重领域网址知乎网2011多领域https://www.zhihu.com百度知道2005多领域http://zhidao.baidu.com搜狗问问2004多领域https://wenwen.sogou.com/快搜问答2005多领域http://wenda.kuaiso.com/StackOverflow2008计算机开发http://stackoverflow.comYahoo!Answer2005多领域http://answers.yahoo.comAnswer.com2005多领域http://www.answers.com
相关理论与技术13获取文本集内具有区分度的关键词,然后利用这些区分明确的关键词对用户主题偏向进行分析,最终获取用户属于各个主题的概率分布,进而挖掘各个主题下的专家用户。2.2.1LDA模型LDA(LatentDirichletAllocation)模型是一种典型的主题概率分布模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。该模型将文本集划分为不同主题,进而对文本集进行综合建模,首先获取文档在不同主题下的概率分布,在此基础上,针对不同的主题获取各个主题下的词分布信息。该模型就是利用这种关系,通过词的分布信息最终获取每个文档的主题概率分布。其概率模型图如2.3所示:图2.3LDA的图模型表示其中,D代表文档集中的所有文档,Nd表示文档集合中第d篇文档包含的单词,T代表所有文档集中包含的主题。θ代表文档的主题分布,服从超参数为α的狄利克雷分布,表示为θ~Dr(α)。代表每个话题下的单词分布,服从超参数为β的狄利克雷分布,表示为~Dr(β)。ω代表LDA模型中的观察词变量,服从参数为的多项式分布,表示为ω~Μul()。Ζ为观察变量ω的话题指派,服从参数为θ的多项式分布,表示为Ζ~Μul(θ)。其中α和β都为狄利克雷分布超参数,取值通常为固定值,α和β的经验取值一般为α=50/Κ,β=0.01。LDA模型的文档生成过程描述如下:1.对于文档集中的每篇文档d,根据超参数α采样文档d的主题分布θd~Dr(α);
【参考文献】:
期刊论文
[1]一种融合话题和行为的在线问答社区领域专家发现方法[J]. 李科霖. 计算机与现代化. 2018(09)
[2]基于LDA的多特征融合的短文本相似度计算[J]. 张小川,余林峰,张宜浩. 计算机科学. 2018(09)
[3]基于双向LSTM模型的文本情感分类[J]. 任勉,甘刚. 计算机工程与设计. 2018(07)
[4]基于Bi-LSTM和分布式表示的网页主题相关度计算[J]. 王锋,白宇,蔡东风,王铁铮. 计算机应用与软件. 2018(07)
[5]基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用[J]. 梁敬东,崔丙剑,姜海燕,沈毅,谢元澄. 南京农业大学学报. 2018(05)
[6]在线问答社区中参与者知识行为研究综述[J]. 齐云飞,赵宇翔,朱庆华. 图书情报知识. 2018(03)
[7]基于深层注意力的LSTM的特定主题情感分析[J]. 胡朝举,梁宁. 计算机应用研究. 2019(04)
[8]融合主题的CLSTM短文本情感分类[J]. 秦锋,黄超,郑啸,邵光梅. 安徽工业大学学报(自然科学版). 2017(03)
[9]基于长短期记忆多维主题情感倾向性分析模型[J]. 滕飞,郑超美,李文. 计算机应用. 2016(08)
[10]中文社区问答中问题答案质量评价和预测[J]. 李晨,巢文涵,陈小明,李舟军. 计算机科学. 2011(06)
硕士论文
[1]基于在线问答社区的领域专家发现方法研究[D]. 李科霖.北京交通大学 2018
[2]基于LSTM的文本相似度识别方法研究[D]. 杨飞.吉林大学 2018
[3]面向问答社区的专家发现方法的研究与实现[D]. 彭爽.北京邮电大学 2018
[4]社会化问答社区的社会网络分析[D]. 宋文丹.西南交通大学 2015
[5]基于深度学习的短文本语义相似度计算[D]. 陈晓阳.北京理工大学 2015
本文编号:3265288
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3265288.html
最近更新
教材专著