当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于用户兴趣模型的个性化搜索系统的研究

发布时间:2019-02-23 15:35
【摘要】:快速发展的互联网在给人们提供大量信息的同时,也不可避免地让用户陷入难以快速获取有价值信息的窘态。搜索引擎已经成为获取网络资源的一种主要方式,但是在实际应用中,即使是不同背景和需求的用户,在输入相同查询词的时候也会得到相同的结果,甚至是相同的网页排序,因此基于用户兴趣偏好的个性化搜索服务是搜索引擎今后发展的一个方向。 本文通过对个性化搜索引擎工作原理和基本技术的研究和探讨,构建了一个简单的基于用户兴趣模型的个性化搜索原型系统。该系统首先获取用户浏览历史记录,并对其进行预处理、中文分词和基于TF-IDF算法的特征词词频统计,利用空间向量表示方法来选取权重最高的N个关键词建立用户的兴趣模型。 然后,系统采用余弦公式计算最初的搜索结果与该模型的相似度,来对搜索结果进行过滤,去除用户不感兴趣的信息,从而挑选出与用户查询匹配度高的网页,保证了网页内容的相关度;并通过分析用户对搜索结果的点击行为,提取搜索结果与查询关键词的相关性,进而增加相关结果页面的权重,降低不相关页面的权重;整合以上两个阶段的相关度评分结果,根据相关度大小对搜索结果进行过滤和重新排序,实现了面向单用户的个性化搜索。 最后,通过对用户浏览数据和点击行为的挖掘,借助于全文搜索引擎Lucene和开源搜索框架Solr,设计并实现了个性化搜索系统。实验过程中与未实现个性化搜索的系统作对比,实验结果证明:基于用户兴趣模型的个性化搜索会根据用户兴趣模型和用户点击行为对搜索结果进行过滤和重排序,搜索结果符合用户的兴趣偏好,有效提高搜索引擎的查准率和用户使用满意度。
[Abstract]:The rapid development of the Internet not only provides people with a lot of information, but also inevitably makes it difficult for users to obtain valuable information quickly. Search engine has become one of the main ways to obtain network resources, but in practical applications, even users with different backgrounds and needs will get the same results when entering the same query words, even the same ranking of web pages. Therefore, personalized search service based on user interest preference is a direction of search engine development in the future. Based on the research and discussion of the working principle and basic technology of personalized search engine, a simple personalized search prototype system based on user interest model is constructed in this paper. The system firstly acquires the user's browsing history record and preprocesses it. The Chinese word segmentation and the feature word frequency statistics based on TF-IDF algorithm. The interest model of users is established by using spatial vector representation method to select N keywords with the highest weight. Then, the system uses cosine formula to calculate the similarity between the initial search results and the model, to filter the search results, remove the information that users are not interested in, and then select the web pages with high matching degree with the users. Ensure the relevance of web content; By analyzing the user's click behavior on the search results, the relevance between the search results and the query keywords is extracted, and then the weight of the relevant result pages is increased, and the weight of the unrelated pages is reduced. Integrating the results of the above two stages, filtering and reordering the search results according to the degree of relevance, the personalized search for single user is realized. Finally, a personalized search system is designed and implemented with the help of full-text search engine (Lucene) and open source search framework (Solr,) by mining the user's browsing data and clicking behavior. The experiment results show that the personalized search based on user interest model will filter and reorder the search results according to user interest model and user click behavior. The search results accord with the user's interest preference, and improve the precision and user satisfaction of search engine effectively.
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 闫炳宽;;基于点击技术的用户兴趣数据挖掘研究[J];电脑知识与技术;2009年33期

2 曲桂英;冯丽娜;张志嵩;张志海;;基于用户兴趣模型的个性化信息服务系统研究[J];哈尔滨商业大学学报(自然科学版);2007年03期

3 林古立;彭宏;马千里;韦佳;覃姜维;;一种基于关键词的网页搜索结果多样化方法[J];华南理工大学学报(自然科学版);2011年05期

4 马千里;林古立;;基于聚类和用户点击的在线多样化排序算法[J];华南理工大学学报(自然科学版);2011年12期

5 陈善雄;彭茂玲;余建桥;;基于分类规则信息熵的报文处理算法[J];计算机工程;2010年08期

6 陈一峰;赵恒凯;余小清;万旺根;;基于本体的用户兴趣模型构建研究[J];计算机工程;2010年21期

7 刘徽;黄宽娜;余建桥;;一种Deep Web爬虫爬行策略[J];计算机工程;2012年11期

8 方树峰;;基于用户反馈的PageRank改进算法[J];计算技术与自动化;2012年01期

9 沈盈洪;丰翔龙;黄荣游;;基于网页聚类的搜索结果优化算法研究[J];计算机应用;2010年S1期

10 程陈;齐开悦;陈剑波;;基于Web2.0的综合搜索引擎[J];计算机应用与软件;2010年01期

相关会议论文 前2条

1 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年

相关硕士学位论文 前10条

1 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年

2 曾凡兴;基于用户兴趣和浏览行为的个性化推荐技术研究[D];江西农业大学;2011年

3 王宇;基于搜索历史的用户兴趣建模[D];复旦大学;2011年

4 张为;公众论坛信息实时检索的研究与实现[D];南京理工大学;2012年

5 代旭峰;基于用户兴趣模型的搜索引擎结果推荐系统[D];复旦大学;2011年

6 薛凌鸿;基于Flex的多媒体智能答疑系统的设计与实现[D];北京邮电大学;2012年

7 李娅;个性化智能元搜索引擎模型研究[D];西南大学;2006年

8 刘忠宝;个性化搜索引擎的研究与实现[D];北京工商大学;2007年

9 李家琪;一种基于信息分布的元搜索结果后处理方法研究[D];北京邮电大学;2008年

10 赵文华;基于用户的个性化搜索引擎研究[D];首都师范大学;2008年



本文编号:2428960

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2428960.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7f6b2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com