基于Ontology的个性化元搜索引擎研究.pdf
本文关键词:基于Ontology的个性化元搜索引擎研究,由笔耕文化传播整理发布。
网友12344近日为您收集整理了关于基于Ontology的个性化元搜索引擎研究的文档,,希望对您的工作和学习有所帮助。以下是文档介绍:第!"卷第#期苏州大学学报(工科版) $%&’!"(%’#!))"年*月!"#$%&’"()""*+", #%-./$)-01(/%2-%//$-%2)*-/%*//3-0-"%) +,-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!’!))"文章编号:./012)#03(!))"))#2)))/2)1基于 456%&%-7的个性化元搜索引擎研究"崔志明.,黄国景.,刘文杰!(.’苏州大学智能信息处理及应用研究所,江苏苏州!."))/;!’苏州大学机电工程学院,江苏苏州!.")!.)摘要:文中提出了一种新的基于 456%&%-7的个性化元搜索引擎系统模型,包括基于 456%&%-7的用户描述文件的表达方法和自动隐式学习算法,以及基于 456%&%-7的查询结果合成算法,全面地描述了系统三层结构以及用户个性化搜索处理过程。关键词:456%&%-7;个性化;元搜索引擎;用户描述文件;合成中图分类号:891:1 文献标识码:+4 引言搜索引擎(;<=>?@A5-B5<,;A)已成为人们检索信息的重要工具。新一代具有智能的搜索引擎已成为当前研究的热点,它将更准确、更全面地满足不同要求、不同兴趣的用户需求,为用户提供高质量和高效率的个性化服务[.]。本文提出了一个基于456%&%-7的个性化元搜索引擎系统模型。模型以现有搜索引擎为基础,利用456%&%-7工具,结合元搜索引擎的较好的扩展性和弥补单个搜索引擎缺陷等优点,可以很大程度上提高检索的效率[!],更好地为用户提供个性化智能检索服务。4’5 456%&%-7C>,D<>把 456%&%-7定义为概念模型的明确的规范说明。456%&%-7本质上是概念模型,用来表达概念与概念之间的关系,获得并提供领域知识的共同理解。456%&%-7作为元数据结构(E<6=F=6=G?@<E=G),提供一种可控的概念辞典,其中每个概念都有清晰的形式化定义。456%&%-7由词条描述和它们之间的关系组成(通过本体语言来描述),可以通过基于关键词的推理和检索456%&%-7来获得更多的相关信息。大量的研究[1]活跃在该领域中,H1I为此推出了语义互联网中本体描述语言推荐标准 4HJ(H<D45K6%&%-7J=5-,=-<)。4HJ采用面向对象的方式来描述领域知识,并通过公理(+LB%EG)来描述知识的特征和它们之间的关系。它能清晰地表达词汇表中词条(8<>E)的含义以及词条之间的关系。本文的相关工作也将基于此进行。4’6 元搜索引擎元搜索引擎是一种没有自己的索引数据库,利用已有的搜索引擎的搜索结果,经过信息处理,以友好的方式把搜索结果显示给用户的一种搜索引擎。即元搜索引擎向其他独立搜索引擎发送处理过的用户查询请求,然后把它们的搜索结果按照一定的算法合成后返回给用户。元搜索引擎的关键工作有:成员搜索引擎的选择,结果合成算法,检索结果的扩展处理。5 系统基本结构本系统模型设计为三层结构,最上层为用户界面,中间层为查询个性化处理,最底层为查询分发收集,如图.所示。下面分别对它们进行详细阐述。5’5 用户界面" 收稿日期:!))"2)12)1作者简介:崔志明(.:/.2),男,教授,博士生导师,主要研究方向为智能化信息处理、计算机网络应用与数据库应用。基金项目:教育部“高校博士学科点科研基金项目”(编号!))#)!*")./)。万方数据图! 系统基本结构用户界面为用户提供方便的查询接口,用户不需要对复杂的搜索引擎的语法进行研究,只需使用最通用的逻辑表达式;提供用户反馈区,用户可以检查、修改或确认系统对查询请求的理解。用户界面的另一主要功能用于显示搜索结果。系统的用户界面统一简单,而且系统还可以屏蔽成员搜索引擎结果中的广告等冗余信息,提高用户浏览的效率。!"" 查询个性化处理查询个性化处理是实现搜索个性化部分的核心层,主要包括查询请求分析、合成及扩展处理、学习、#$%&’&()管理接口等模块。" 个性化处理及相关算法""! #$%&’&()和用户描述文件(*+,-.-&/0’,)#$%&’&()的创建和管理[1]是一个费时复杂的工作,但是#$%&’&()的准确合理程度将直接影响到系统搜索的结果,是实现整个系统的基础。用户描述文件是用来刻画用户特征与用户之间关系的。为了跟踪用户的兴趣和行为,系统为每个用户建立一个用户描述文件。""" 学习本系统模型结合显式方式,以自动隐示学习方式为主。其中对用户描述文件的自动隐示学习算法描述如下:算法! 用户描述文件自动隐示学习算法。! 收集用户访问过的历史页面及相关行为信息;" 对页面进行预处理,去除停用词(2%&34&-5+),抽取页面中的词干(4&-52%,660$(),并生成文档的特征向量,其中向量的每个元素表示一个带有权值的词条;# 采用基于向量空间模型的78!9:8算法参照#$%&’&()中的概念把文档分类;$ 计算分类后的文档和概念之间的余弦相似度(;&+0$,2060’<-0%)),把计算结果降幂排列;% 假设给出的用户感兴趣领域的设定值为=,则把计算结果的前=个概念添加到用户描述文件中,已存在的则调整其权值。""# 查询请求分析用户搜索时,首先提交查询请求。查询请求分析模块参照#$%&’&()将该查询请求与用户描述文件(进行相似性比较)进行个性化分析,推理出用户真正的查询意图。然后建议用户进行确认或修改系统给出的推理结果,即进行反馈交互(不是必须的),以帮助推理结果的优化。再根据意图推理的结果,产生个性化的任务,提交给查询任务分发模块。""$ 合成及扩展处理由于成员搜索引擎在网页集上存在重叠,所以搜索出来的结果必然会出现相同,因此合成时有必要消除重复结果。如何判别结果是否重复呢?算法> 重复结果判别算法。! 如果查询结果的*?@完全相同,可以肯定是重复结果;" 如果两个*?@ 只是文件名不同,其他部分相同(例如“A%%3://+,-B,-/”和“A%%3://+,-B,-/0$5,C"A%6’”),则认为是相同结果;# 如果*?@完全不同,但文档的标题和摘要相同或相似,则认为是相同的。综上所述,系统对查询结果的合成及扩展处理描述如下:D第>E卷崔志明,黄国景,刘文杰:基于#$%&’&()的个性化元搜索引擎研究万方数据算法! 查询结果合成及扩展处理算法。! 归并所有重复结果;" 参照用户描述文件和"#$%&%’(,分析检索结果的标题和摘要,提取其中用户感兴趣的领域概念;# 将各个检索结果按"#$%&%’(分类,并计算各个检索结果在用户描述文件中对应概念的平均权值)(检索结果可能对应多个分类);$ 结合成员搜索引擎的评价权值、系统对成员搜索引擎的评价权值和)值,计算出检索结果和用户查询请求的相关度*;% 把*低于相关度阈值的所有检索结果过滤掉;& 消除结果标题链接为死链接的检索结果;& 将得到的结果按*降幂排序,并提交给用户界面。! 总结本文提出了一个基于"#$%&%’(的个性化元搜索引擎系统模型,而目前大多数元搜索引擎
12>
播放器加载中,请稍候...
系统无法检测到您的Adobe Flash Player版本
建议您在线安装最新版本的Flash Player 在线安装
本文关键词:基于Ontology的个性化元搜索引擎研究,由笔耕文化传播整理发布。
本文编号:62171
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/62171.html