当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于领域本体的中文财经Blog搜索引擎的设计与实现

发布时间:2018-11-02 16:14
【摘要】:随着博客(Blog)的迅猛发展,Blog网页数量成几何级数增长,如何在海量的Blog页面中找到自己感兴趣的Blog网页显得尤为重要。于是针对Blog页面的专业搜索引擎(Blog搜索引擎)诞生了。本文主要就是针对基于本体的财经Blog搜索引擎展开研究。 经过研究发现,Blog搜索引擎存在一些不足之处可以归纳到三个方面:一是Blog网页相似度计算,不能支持文档级别查询。其原因是现有的Blog搜索引擎没有有效的计算Blog网页相似的方法;二是搜索结果不能满足用户的查询意图,其原因是相似是否为语义相似或者相似值不准确;三是检索结果排序方面,如何让内容相关的结果排在前,这与检索结果的排序算法相关。 本文针对这些不足之处进行了深入研究,并归纳到以下二方面: 1.针对Blog网页相似度计算方面,本文在现有的Blog网页相似计算方法的研究基础上提出了基于本体的财经Blog网页相似计算方法(CSFBO方法)。该方法提出了财经关键词表示Blog网页信息,把Blog网页相似计算转化成财经关键词间的相似计算。这样关键词提取的好坏尤为重要。在传统的TF*IDF算法的基础上,根据Blog网页的特点对网页不同部分赋予不同的权值,从而改进了财经关键词的提取算法,提高了相似计算的精确度。 2.针对Blog搜索结果排序方面,本文分析了BlogRank算法和B2Rank算法,结合了财经Blog的特点,根据财经Blog排序算法的影响因子和对现有的排序算法的不足之处,提出了针对财经领域的Blog搜索结果排序算法(SFBS算法)。 本文构建了财经领域本体,应用了上述改进算法,实现了基于领域本体的财经Blog搜索引擎,采集了大量网络数据进行测试,通过对该系统的实现验证了改进算法的有效性,在实际应用中具有较高的实用价值。
[Abstract]:With the rapid development of blog (Blog), the number of Blog pages has increased in geometric order. How to find the Blog pages of interest in the massive Blog pages is particularly important. So the professional search engine (Blog search engine) for Blog pages was born. This paper mainly focuses on the ontology-based financial Blog search engine. It is found that the Blog search engine has some shortcomings in three aspects: first, the similarity calculation of Blog pages can not support document level query. The reason is that the existing Blog search engine has no effective method to calculate the similarity of Blog pages, the second is that the search results can not meet the query intention of users, the reason is whether the similarity is semantic similarity or the similarity value is inaccurate. Third, how to rank the content related results first, which is related to the sorting algorithm of the retrieval results. This article has carried on the thorough research to these deficiencies, and summed up the following two aspects: 1. On the aspect of Blog web page similarity calculation, this paper proposes an ontology-based Blog web page similarity calculation method (CSFBO method) based on the research of existing Blog web page similarity calculation methods. In this method, the financial keywords represent the information of Blog pages, and the similarity calculation of Blog pages is transformed into the similarity calculation between financial and financial keywords. This keyword extraction is particularly important. Based on the traditional TF*IDF algorithm, different parts of Blog pages are given different weights according to the characteristics of Blog pages, thus the algorithm of extracting financial keywords is improved, and the accuracy of similarity calculation is improved. 2. On the aspect of Blog search result sorting, this paper analyzes the BlogRank algorithm and B2Rank algorithm, combines the characteristics of financial Blog, according to the influence factors of the financial Blog sorting algorithm and the shortcomings of the existing sorting algorithm. This paper presents a Blog search result sorting algorithm (SFBS algorithm) for finance and economics. In this paper, the financial domain ontology is constructed, the improved algorithm is applied, the financial Blog search engine based on domain ontology is implemented, and a large number of network data are collected for testing. The effectiveness of the improved algorithm is verified by the implementation of the system. It has high practical value in practical application.
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 刘仁宁;李禹生;;领域本体构建方法[J];武汉工业学院学报;2008年01期

2 李瑜;郭俊波;虎嵩林;;一种基于发布订阅模型的博客搜索系统[J];微电子学与计算机;2009年09期

3 丁晟春,顾德访;Jena在实现基于Ontology的语义检索中的应用研究[J];现代图书情报技术;2005年10期

相关硕士学位论文 前7条

1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年

2 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年

3 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年

4 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年

5 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年

6 李峰;基于博客特性和链接分析的博客搜索结果排序算法研究[D];浙江大学;2008年

7 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年



本文编号:2306298

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2306298.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c72ac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com