基于短语主题模型和多文档自动摘要技术的文献综述内容推荐

发布时间：2017-10-14 12:15

本文关键词：基于短语主题模型和多文档自动摘要技术的文献综述内容推荐

【摘要】：互联网信息资源的快速增长对信息检索领域的研究和应用提出了极大的挑战。信息检索,特别是对检索结果的处理工作越来越受到学者们的重视。如何帮助用户更快地、更有效地进行信息获取是一个值得研究和深入的话题。学术文献是一种相比其他如新闻文章,博客,网页等包含信息更加标准和丰富的资源。对从网络上得到的大量学术文献中进行快速有效的信息获取,对学者们而言是具有重大的价值和意义的。本文搭建的文献综述系统旨在为用户提供一个方便的文献资源利用平台,中英文文献资源检索、文献检索结果可视化分析和人机协同综述撰写等服务。其中文献资源检索是利用开源工具Lucene对从网络文献数据库下载的文献数据创建索引从而提供检索支持。而检索结果可视化分析是对检索结果的文献列表的元数据分析和统计,通过可视化展示为用户提供一个文献随时间、地域、热点等因素的如何变化的视角。在人机协同综述撰写中,通过提供综述参考目录和参考内容来辅助用户综述的撰写。综述参考目录是利用对检索结果聚类的工具carrot2提供简单的综述参考目录。综述参考内容是本文介绍的重点部分,主要是通过短语主题建模来实现文献文档中与用户提供的主题相关的参考内容推荐服务。本文在短语主题模型PhraseLDA的基础上进行改进,使用SmoothPhraseLDA计算文档中句子的主题权重,并在SumBasic多文档自动摘要算法基础上完成了文献综述参考内容推荐的功能。
【关键词】：信息检索 文献综述内容推荐 短语主题挖掘 多文档自动摘要
【学位授予单位】：浙江大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1
【目录】：

摘要4-5
Abstract5-10
第1章绪论10-17
1.1 课题背景10-11
1.2 信息检索11-12
1.3 多文档自动摘要12-13
1.4 本文的主要工作13-15
1.5 本文的组织结构15-16
1.6 本章小结16-17
第2章主题模型相关研究17-27
2.1 主题模型的提出与发展17-18
2.2 概率隐性语义分析模型18-21
2.3 LDA模型21-26
2.3.1 LDA模型表示21-23
2.3.2 LDA参数估计23-24
2.3.3 LDA模型的扩展24-26
2.4 主题模型评价标准26
2.4.1 Perplexity26
2.5 本章小结26-27
第3章文档自动摘要相关研究27-37
3.1 单文档自动摘要27-29
3.2 多文档自动摘要29-33
3.2.1 信息混合摘要30
3.2.2 主题驱动的摘要和MMR30-31
3.2.3 基于Centroid的摘要31
3.2.4 基于句子压缩的多文档摘要31-33
3.3 国内文档自动摘要的研究33-34
3.4 文档自动摘要的评价标准34-36
3.4.1 文档摘要自动评价方法34-36
3.5 本章小结36-37
第4章平滑的PhraseLDA主题建模37-49
4.1 短语主题模型PhraseLDA38-42
4.1.1 频率短语挖掘38
4.1.2 基于短语袋假设的PhraseLDA主题建模38-41
4.1.3 PhraseLDA的缺点41-42
4.2 平滑的参数估计的短语主题模型SmoothPhraseLDA42
4.3 实验结果42-48
4.3.1 Perplexity43-45
4.3.2 Perplexity+45-46
4.3.3 主题结果质量评估46-48
4.4 本章小结48-49
第5章基于短语主题建模的多文档自动摘要49-56
5.1 SumBasic文档自动摘要生成算法49-50
5.2 基于主题的文档自动摘要技术50
5.3 综合SmoothPhraseLDA与SumBasic的综述内容推荐50-53
5.3.1 基于SmoothPhraseLDA的主题权重计算51-52
5.3.2 基于SumBasic算法的综述内容推荐52
5.3.3 适用于应用的综述内容推荐算法52-53
5.4 语句压缩和精简53
5.5 实验结果53-55
5.6 本章小结55-56
第6章文献综述系统的实现56-66
6.1 文献检索56-58
6.1.1 文献数据采集系统的设计56-58
6.2 文献检索服务58-61
6.2.1 关键词检索58-61
6.3 检索结果可视化服务61-63
6.4 人机协同综述系统63-65
6.5 本章小结65-66
第7章总结与展望66-67
7.1 总结66
7.2 展望66-67
参考文献67-71
攻读硕士学位期间主要的研究成果71-72
致谢72

【参考文献】

中国期刊全文数据库前2条

1 杨潇;马军;杨同峰;杜言琦;邵海敏;;主题模型LDA的多文档自动文摘[J];智能系统学报;2010年02期

2 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期

中国博士学位论文全文数据库前1条

1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年

中国硕士学位论文全文数据库前1条

1 刘红艳;基于hLDA层次主题模型的多文档摘要技术研究[D];北京邮电大学;2012年

，

本文编号：1031000

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1031000.html

上一篇：基于结构连续先验的CT图像序列自适应分割算法
下一篇：色觉正常观察者辨色差异影响研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|