当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向Blog的自动摘要与搜索排序算法研究

发布时间:2018-04-04 01:04

  本文选题:Blog搜索 切入点:摘要抽取 出处:《苏州大学》2012年硕士论文


【摘要】:随着信息技术的不断发展,Blog应用正在不断普及和深化。庞大的Blog用户群所形成的海量信息源使得Blog成为一个极其丰富而有价值的信息资源库。面对如此巨大的信息资源,优秀的Blog搜索引擎显得十分重要,这一需求使得Blog搜索引擎受到越来越多研究人员的关注。在与之相关的研究中,合理的自动摘要能够让用户迅速判断出信息的有效性,良好的搜索排序算法能够优先返回给用户质量更高的结果,这两部分对Blog搜索引擎的好坏无疑有着决定性的作用。 本文主要针对面向Blog的自动摘要和搜索排序算法进行了较深入的研究,主要研究工作概括如下: 1)描述了Blog相关概念,介绍了和本文研究相关的国内外研究现状,分别对面向Blog的自动摘要和搜索排序算法的相关方法进行了详细分析。 2)根据本文应用需求,对Blog中的信息进行了两方面预处理,包括:将评论识别成讨论型评论、关注型评论、垃圾评论三类,并根据类型挖掘对应的价值;利用贝叶斯文本分类方法,融合博文、标签和评论三种特征对博文进行分类。 3)提出了一种基于特征信息的Blog自动摘要方法。该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余。 4)利用博主之间的各种关注关系评价博主的影响力,继而计算博文的内容价值,并考虑评论因素,给出博文的静态得分。然后考虑博文新鲜度,查询相似性等多方面因素来对搜索结果进行合理排序。 5)利用上述研究成果,设计并实现了一个能够适应用户对评论偏好的Blog搜索引擎原型系统,该原型系统同时提供了分类浏览功能。
[Abstract]:With the development of information technology, blog application is popularizing and deepening.The massive information source formed by the huge Blog user group makes Blog an extremely rich and valuable information resource.In the face of such huge information resources, the excellent Blog search engine is very important, which makes the Blog search engine attract more and more researchers' attention.In the related research, reasonable automatic summary can make the user judge the validity of the information quickly, and the good search sorting algorithm can give priority to the higher quality result of the user.These two parts of the Blog search engine is undoubtedly good or bad has a decisive role.This paper mainly focuses on the automatic summary and search sorting algorithm for Blog. The main research work is summarized as follows:1) the related concepts of Blog are described, and the research status of this paper is introduced, and the relevant methods of automatic summary and search sorting algorithm for Blog are analyzed in detail.2) according to the application requirement of this paper, the information in Blog is preprocessed in two aspects, including: identifying the comment as discussion comment, concern comment, garbage comment, and mining the corresponding value according to the type;This paper uses Bayesian text classification method to classify blog articles with three features: blog, label and comment.3) an automatic Blog summarization method based on feature information is proposed.On the basis of making full use of the Blog feature information, the method combines the concerns of comments based on the potential semantic correlation, and generates a more reader friendly summary. Meanwhile, the topic coverage and information redundancy are balanced by the method of summary check.4) evaluating the influence of bloggers by using various relationships of concern among bloggers, then calculating the content value of blog posts, and considering the factors of comment, the static scores of blog posts are given.Then consider the freshness of blog articles, query similarity and other factors to sort the search results.5) based on the above research results, a prototype system of Blog search engine is designed and implemented, which can adapt to users' preference for comments. The prototype system also provides classification browsing function.
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3;TP393.09

【参考文献】

相关期刊论文 前10条

1 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期

2 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

3 黄海英;林士敏;严小卫;;基于概念空间的文本分类研究[J];计算机科学;2003年03期

4 卢刚;;一种基于多特征融合的博客文章排序算法[J];计算机工程;2009年02期

5 何海江;;一种适应短文本的相关测度及其应用[J];计算机工程;2009年06期

6 余正涛;樊孝忠;郭剑毅;耿增民;;基于潜在语义分析的汉语问答系统答案提取[J];计算机学报;2006年10期

7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

8 盖杰,王怡,武港山;潜在语义分析理论及其应用[J];计算机应用研究;2004年03期

9 王文欣,黄萱菁,吴立德;基于统计方法的汉语自动文摘系统研究[J];计算机应用与软件;2000年09期

10 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期



本文编号:1707691

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1707691.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户65f72***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com