基于科研文档的主题分析与推荐系统
发布时间:2021-03-29 08:18
科研文档数据包含着丰富的科研信息,例如研究内容、研究方法等。随着科研文档集规模的日益增大,科研人员从海量的科研文档中获取有价值的信息越来越困难,急需对科研文档中有用的信息进行准确地抽取和有效地组织。经过调研,从主题这一维度对科研文档进行分析并挖掘主题变化趋势,有助于科研人员及时获取相关领域的研究动态,更方便高效地利用科研资源。本文选择了经典的潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型进行主题挖掘,然而LDA模型挖掘出的主题是以词概率分布的形式展现的,相对抽象。为了使挖掘到的主题更容易理解,本文调研并优化了主题标签提取技术。具体实现为从文档集中抽取与主题含义最相似的若干句子作为主题标签进行展示,并降低句子之间的重复度使得主题标签的内容更加精炼。此外,本文设计了相似主题的推荐功能,通过计算主题词分布之间的余弦相似度来衡量主题的相似程度。最后,本文还设计了主题热度的趋势分析功能,通过计算每一年与主题相关的文档数量来衡量主题的热度,并通过趋势曲线来表示主题热度随年份的变化趋势。本文针对上述需求,进行了合理的架构设计和模块设计,设计与实现了一个基于科研...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Termite可视化模型
图 2.4 LDAvis 可视化模型2.5.2 融合外部特征的可视化融合外部特征的主题模型可视化融合了时间和作者这两个属性。融入时间属性的可视化可展示主题随时间的演变趋势,融入作者属性的可视化可展示文档作者的兴趣分布以及作者之间的兴趣关联。
图 2.5 TIARA 可视化模型此外,Susan 等人提出 Themeriver[53]模型来展示主题随时间的演变趋势,该模型很好地展示了文档集的主题随时间的变化过程,但没有具体展示主题的词项分布。基于以上研究,基于 LDA 主题模型的可视化技术能从全局上展示文档、主题、词项之间的关系,加上作者和时间两种外部特征,主题的可视化变得更加丰富。
【参考文献】:
期刊论文
[1]基于Web的科研项目管理信息系统的设计与实现[J]. 张冉. 电子技术与软件工程. 2018(15)
[2]基于LDA主题模型的文献关联分析及可视化研究[J]. 王丽,邹丽雪,刘细文. 数据分析与知识发现. 2018(03)
[3]主题领域研究热点跟踪及趋势预测的可视化分析方法研究[J]. 陈勇跃,田文芳,吴金红. 情报理论与实践. 2017(06)
[4]基于主题模型的检索结果聚类应用研究[J]. 阮光册,夏磊. 情报杂志. 2017(03)
[5]LDA模型在专利文本分类中的应用[J]. 廖列法,勒孚刚,朱亚兰. 现代情报. 2017(03)
[6]基于LDA的主题发现及演化规律的可视化研究[J]. 龚磊. 现代计算机(专业版). 2017(07)
[7]学科结构与演化可视化分析的内容研究[J]. 陈必坤,王曰芬. 图书情报工作. 2016(21)
[8]科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 关鹏,王曰芬. 现代图书情报技术. 2016(09)
[9]基于文本挖掘的科研项目管理辅助决策系统研究与实现[J]. 蒙杰,杨生举,施韶亭. 计算机应用与软件. 2016(09)
[10]基于LDA模型的文本相似度研究[J]. 陈攀,杨浩,吕品,王海晖. 计算机技术与发展. 2016(04)
硕士论文
[1]分布式科研文档管理系统的设计与实现[D]. 金天凡.华中科技大学 2014
本文编号:3107245
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Termite可视化模型
图 2.4 LDAvis 可视化模型2.5.2 融合外部特征的可视化融合外部特征的主题模型可视化融合了时间和作者这两个属性。融入时间属性的可视化可展示主题随时间的演变趋势,融入作者属性的可视化可展示文档作者的兴趣分布以及作者之间的兴趣关联。
图 2.5 TIARA 可视化模型此外,Susan 等人提出 Themeriver[53]模型来展示主题随时间的演变趋势,该模型很好地展示了文档集的主题随时间的变化过程,但没有具体展示主题的词项分布。基于以上研究,基于 LDA 主题模型的可视化技术能从全局上展示文档、主题、词项之间的关系,加上作者和时间两种外部特征,主题的可视化变得更加丰富。
【参考文献】:
期刊论文
[1]基于Web的科研项目管理信息系统的设计与实现[J]. 张冉. 电子技术与软件工程. 2018(15)
[2]基于LDA主题模型的文献关联分析及可视化研究[J]. 王丽,邹丽雪,刘细文. 数据分析与知识发现. 2018(03)
[3]主题领域研究热点跟踪及趋势预测的可视化分析方法研究[J]. 陈勇跃,田文芳,吴金红. 情报理论与实践. 2017(06)
[4]基于主题模型的检索结果聚类应用研究[J]. 阮光册,夏磊. 情报杂志. 2017(03)
[5]LDA模型在专利文本分类中的应用[J]. 廖列法,勒孚刚,朱亚兰. 现代情报. 2017(03)
[6]基于LDA的主题发现及演化规律的可视化研究[J]. 龚磊. 现代计算机(专业版). 2017(07)
[7]学科结构与演化可视化分析的内容研究[J]. 陈必坤,王曰芬. 图书情报工作. 2016(21)
[8]科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 关鹏,王曰芬. 现代图书情报技术. 2016(09)
[9]基于文本挖掘的科研项目管理辅助决策系统研究与实现[J]. 蒙杰,杨生举,施韶亭. 计算机应用与软件. 2016(09)
[10]基于LDA模型的文本相似度研究[J]. 陈攀,杨浩,吕品,王海晖. 计算机技术与发展. 2016(04)
硕士论文
[1]分布式科研文档管理系统的设计与实现[D]. 金天凡.华中科技大学 2014
本文编号:3107245
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3107245.html