面向基础教育资源的个性化垂直搜索引擎
发布时间:2017-12-12 11:05
本文关键词:面向基础教育资源的个性化垂直搜索引擎
更多相关文章: 个性化垂直搜索引擎 用户兴趣模型 Lucene Heritrix
【摘要】:当前,互联网迅猛发展,数据资源呈指数增长,用户从互联网中查找自己所需要的信息,这时就变得非常困难,从而亟需一种技术来解决这种现象。搜索引擎技术的出现和发展让网民能够更加方便、容易的在互联网中搜索自己所需信息资源。而目前大多数通用搜索引擎是基于关键词匹配,并且没有充分利用用户个性化信息,从而用户得到的搜索结果并不完全是用户所需要,还需要用户花费额外的精力来过滤无用的信息。借鉴个性化推荐系统的思路,将个性化技术应用到垂直搜索引擎领域,从而能够让用户在专业领域内更有效率、更加准确的查找所需资源,能有更好的搜索体验。 本论文首先从研究搜索引擎相关理论着手,然后着重对个性化搜索引擎关键技术中的主题网络爬、网页信息抽取技术、用户兴趣模型进行了研究,并且利用用户兴趣模型对Lucene的排序算法进行改进,最后设计一个个性化垂直搜索引擎系统模型,,并将其应用到基础教育领域。 本论文的重点有: (1)研究分析开源网络爬虫Heritrix,并在其基础上扩展应用基于链接分析和领域词库的爬行策略,从而设计主题网络爬虫模型。 (2)研究分析开源检索工具Lucene的体系结构、索引结构、数据流以及功能,着重研究Lucene的排序算法,并对Lucene排序算法进行基于用户兴趣模型的个性化信息改进,设计检索模型。 (3)通过研究信息抽取相关技术,例如正则表达式、开源工具包HTMLParser,结合网页数据和实际需求,设计信息抽取模型。 (4)研究用户兴趣建模理论,设计通过挖掘用户对教育资源的使用行为建立用户兴趣模型的算法。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【参考文献】
中国期刊全文数据库 前1条
1 荆济学;张伟;;浅谈如何利用Google高效搜索[J];电脑知识与技术;2010年19期
本文编号:1282245
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1282245.html