基于主题模型的科技论文聚类推荐
本文选题:主题模型 + 科技论文 ; 参考:《华北电力大学》2013年硕士论文
【摘要】:科技论文为知识的传递起到了推动作用,用户通过论文出版商提供的专用搜索引擎得到所需要的文献,检索信息结果不仅包括文章的基本信息也包括该文章的一些推荐文章。本文从基于内容的推荐方向出发,在对文本建模的时候使用了主题模型,此时同基于空间模型的表示法相比,在语义层面的角度上充分的考虑了词与词之间的联系,而后通过基于划分的聚类方法,自动将相似文章集簇到一起,最后在各个子簇下利用相似性算法对各个文章进行计算,将计算值大的文章列为推荐文章。它同传统的单纯依靠关键词和题目推荐的方法相比,充分考虑到文章与文章内容之间的联系,为传统的论文推荐方法做了很好的补充。 本文首先介绍了在信息检索领域里的基本的文本表示方法和演变,深入的介绍了隐性语义索引、概率隐性语义索引和潜在狄利克雷分配。在数据来源的方面上,着重的分析了目标网页的特点,制定相应的抓取规则。在推荐后端上,用三层框架来具体描述其实现:第一层是基于主题模型的文档表示;第二层是文档聚类使用的是K-means聚类算法;第三层是基于主题模型下计算文章的相似性。在实验阶段用LDA和PLSA在不同的主题数目下,计算聚类效果的F值。同时本工作在基于Sphinx搜索引擎的基础上用网页的形式实现出来。
[Abstract]:Scientific papers play an important role in the transfer of knowledge. Users obtain the required documents through a special search engine provided by the paper publishers. The retrieval results include not only the basic information of the article but also some recommended articles of the article. In this paper, the topic model is used in the text modeling from the point of view of the content based recommendation. Compared with the representation based on the spatial model, the relationship between words and words is fully considered from the perspective of semantic level. Then by using partition-based clustering method, the similar articles are automatically clustered together. Finally, the similarity algorithm is used to calculate each article under each subcluster, and the articles with large computing value are listed as recommended articles. Compared with the traditional methods which rely solely on keyword and topic recommendation, it fully considers the relationship between the article and the content of the article, and makes a good supplement to the traditional method of paper recommendation. In this paper, we first introduce the basic text representation and evolution in the field of information retrieval, and introduce the implicit semantic index, probabilistic implicit semantic index and potential Delikley assignment. In the aspect of data source, this paper analyzes the characteristics of the target web page and formulates the corresponding capture rules. In the recommended back-end, the implementation is described by a three-layer framework: the first layer is the document representation based on the topic model; the second layer is the document clustering algorithm using K-means; and the third layer is the similarity calculation based on the topic model. In the experiment stage, LDA and PLSA are used to calculate the F value of clustering effect under different subject numbers. At the same time, the work based on the Sphinx search engine based on the form of web pages.
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;TP311.13
【参考文献】
相关期刊论文 前9条
1 聂规划;付志超;陈冬林;刘平峰;;基于本体的论文复制检测系统[J];计算机工程;2009年06期
2 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
3 刘宝生;闫莉萍;周东华;;几种经典相似性度量的比较研究[J];计算机应用研究;2006年11期
4 刁宇峰;杨亮;林鸿飞;;基于LDA模型的博客垃圾评论发现[J];中文信息学报;2011年01期
5 彭泽映;俞晓明;许洪波;刘春阳;;大规模短文本的不完全聚类[J];中文信息学报;2011年01期
6 王娟琴;三种检索模型的比较分析研究——布尔、概率、向量空间模型[J];情报科学;1998年03期
7 刘红泉,张亮峰;布尔逻辑检索模型的分析探讨[J];现代情报;2004年09期
8 马宏伟;张光卫;李鹏;;协同过滤推荐算法综述[J];小型微型计算机系统;2009年07期
9 刘建国;周涛;汪秉宏;;个性化推荐系统的研究进展[J];自然科学进展;2009年01期
相关硕士学位论文 前4条
1 吴晓蓉;K-均值聚类算法初始中心选取相关问题的研究[D];湖南大学;2008年
2 葛润霞;基于内容聚类的协同过滤推荐系统研究[D];山东师范大学;2008年
3 翟悦;改进的关联规则挖掘算法在个性化推荐系统中应用[D];大连交通大学;2008年
4 楚克明;基于LDA的新闻话题演化研究[D];上海交通大学;2010年
,本文编号:1983661
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1983661.html