基于Osmot的个性化信息检索系统的研究与实现
本文选题:个性化信息检索 切入点:机器学习 出处:《中山大学》2012年硕士论文
【摘要】:随着互联网的飞速发展,信息呈现爆炸性的增长。Web正成为人们获取信息的重要途径。互联网的信息检索平台,比如搜索引擎(Baidu、Google等),在得到广泛应用的同时也面临着许多困难。首先对于同样的搜索关键词,不同的用户可能会有完全不同的信息需求;其次用户的信息需求也会随着时间的变化而变化。而现有的搜索引擎使用的信息检索技术大多采用统一模式(one size fitsall),主要还是关键词匹配的模式。没有考虑到用户之间的个体差异和时效性,从而影响到检索结果的精确度和用户的满意度。个性化信息检索系统的出现,为解决这些困难提供了一个途径。 目前信息检索系统难以实现个性化的重要原因是无法准确获取用户的检索需求,而用户众多的信息需求中,学习和科研是一个相对稳定的信息需求。这是因为每个用户都有自己的专业和研究方向,这些是稳定的,至少在相当长一个时期内是稳定的。如果用户的信息需求是稳定的,那么在信息检索中实现个性化功能就是一件相对容易的事情了。 在理论研究界,个性化信息检索领域已经有了很多的研究成果。例如:用户行为的研究,通过收集用户的点击数据来优化搜索引擎。机器学习的研究,设计学习算法,把SVM应用到信息检索系统中提高信息检索结果的准确性。在这些理论研究成果的基础上,有研究者开发了具备个性化功能的搜索引擎并将它开源,Osmot搜索引擎就是其中之一。 本文首先研究了Osmot搜索引擎的源代码,并修改其源代码。把IKAnalyzer集成进来增加了中文智能分词的功能,使Omsot支持中文搜索。在此基础上结合Lucene、Struts、iBatis等开源软件和框架设计并实现了一个个性化信息检索系统。该系统能记录用户搜索历史,然后通过分析用户的搜索历史并进行机器学习,最后对用户的检索结果进行重排序。在实现该系统的基础上,本文还采用真实的数据对系统的学习和重排序功能进行了初步的验证。
[Abstract]:With the rapid development of the Internet, the explosive growth of information. Web is becoming an important way for people to obtain information.Internet information retrieval platforms, such as search engine Baidu-Google, are widely used and face many difficulties.First, different users may have different information requirements for the same search keywords; secondly, users' information needs will change with time.However, most of the information retrieval techniques used in the existing search engines are based on a unified size fitsaller mode, which is mainly a keyword matching model.Individual differences and timeliness among users are not taken into account, thus affecting the accuracy of retrieval results and user satisfaction.The emergence of personalized information retrieval system provides a way to solve these difficulties.At present, the important reason why it is difficult to realize individuation in information retrieval system is that it is unable to accurately obtain the retrieval requirements of users. Among the numerous information needs of users, learning and scientific research is a relatively stable information demand.This is because each user has their own professional and research direction, which is stable, at least for quite a long time.If the user's information needs are stable, it is relatively easy to realize the personalized function in information retrieval.In the field of theoretical research, there have been a lot of research results in the field of personalized information retrieval.For example: user behavior research, by collecting user click data to optimize search engines.The research of machine learning, the design of learning algorithm, the application of SVM to information retrieval system to improve the accuracy of information retrieval results.On the basis of these theoretical research results, some researchers have developed a personalized search engine and opened it to Osmot search engine, which is one of them.This paper first studied the source code of Osmot search engine, and modified its source code.The integration of IKAnalyzer adds the function of Chinese word segmentation and enables Omsot to support Chinese search.On this basis, a personalized information retrieval system is designed and implemented in combination with open source software and framework such as Lucene Struts and iBatis.The system can record the user's search history, then analyze the user's search history and carry on the machine learning, finally reorder the user's search results.Based on the implementation of the system, the learning and reordering functions of the system are preliminarily verified by real data.
【学位授予单位】:中山大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 张晓波,王蕾,韩永国;基于智能Agent的个性化信息检索系统[J];安阳师范学院学报;2004年02期
2 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
3 杨涛;;个性化信息检索及其实现方式探析[J];图书情报论坛;2002年02期
4 陆广能;数字图书馆个性化信息检索中信息推送技术的应用研究[J];电脑知识与技术;2005年20期
5 董俊峰;;个性化信息检索用户兴趣模型的研究[J];科技致富向导;2008年18期
6 陈世平,周福华,俞海;面向领域的个性化智能检索系统MySpy的研究与开发[J];小型微型计算机系统;2002年11期
7 张宁;赵德平;;基于领域本体的个性化信息检索研究与应用[J];科技传播;2010年12期
8 张宁;赵德平;;基于领域本体的个性化信息检索研究与应用[J];科技致富向导;2010年21期
9 楼靖华;;数字图书馆的个性化信息检索研究[J];情报杂志;2006年01期
10 许春漫;;数字图书馆个性化信息检索模型研究[J];现代图书情报技术;2006年03期
相关会议论文 前6条
1 张宇;范基礼;郑伟;邹博伟;刘挺;;基于人工标注的个性化检索系统评测的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 邹博伟;张宇;范基礼;郑伟;刘挺;;基于改进的TextTiling方法的用户新兴趣发现的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
5 张华;姚莉;张英朝;;个性化决策助手Agent的参考模型与应用研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 徐志明;宋毅;冯子威;李生;;一种基于分类的用户兴趣模型[A];第六届全国信息检索学术会议论文集[C];2010年
相关重要报纸文章 前3条
1 应晓敏 窦文华;条条道路通罗马[N];计算机世界;2003年
2 采访人:本报记者 齐柳明、吴小京 被采访人:中国科学院文献情报中心(中科院图书馆)孙坦博士、辛希孟教授;数字图书馆让普通人学富五车[N];光明日报;2002年
3 应晓敏 窦文华;实现途径[N];计算机世界;2003年
相关博士学位论文 前2条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
相关硕士学位论文 前10条
1 刘宏;基于语义的个性化信息检索研究[D];华北电力大学(河北);2010年
2 林霞;个性化信息检索技术在勘探门户中的应用研究[D];西安石油大学;2011年
3 万里;基于本体的个性化信息检索研究[D];兰州理工大学;2013年
4 刘佳音;基于本体的个性化信息系统的应用研究[D];杭州电子科技大学;2009年
5 宋超;基于Sogou日志的个性化信息检索分析与建模[D];哈尔滨工业大学;2010年
6 安鸿旭;基于Osmot的个性化信息检索系统的研究与实现[D];中山大学;2012年
7 舒晓明;基于语义网的个性化信息检索的研究与实现[D];沈阳工业大学;2011年
8 杨刚华;基于Agent的个性化信息检索系统研究[D];大连理工大学;2005年
9 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年
10 王海龙;个性化信息检索技术的研究[D];西南交通大学;2010年
,本文编号:1706069
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1706069.html