基于概念检索的中文搜索引擎
本文关键词:四大中文搜索引擎检索性能测评,由笔耕文化传播整理发布。
当前位置:文库下载 > 所有分类 > IT/计算机 > 基于概念检索的中文搜索引擎
基于概念检索的中文搜索引擎
基于概念检索的中文搜索引擎
第1期 逄焕利等:基于概念检索的中文搜索引擎9
搜索器。搜索引擎工作的基本思想是:使用Robot来遍历Web,将Web上分布的信息下载到本地文档库;然后对文档内容进行自动分析并建立索引,添加到倒排索引库;对于用户提出的检索请求,搜索引擎通过检查索引库找出匹配的文档(链接),返回用户。而基于概念检索的搜索引擎特别是在建立索引和检索过程中,所有的工作都是建立在概念语义网络基础之上的。搜索引擎系统框架如图1所示
。
位概念常常是下位概念的抽象、概括或整体表示;下位概念往往是上位概念的属性、特征或说明,是对上位概念的补充和细化,它描述自己的独有属性,同时继承上位概念的属性。从这个意义上来看,概念语义网络首先是一个分类树。根据计算机领域的特点和通常的分类标准,概念语义网络共分为4层。第1层是最高层,是最具概括性的概念,表明了一个独立的主题,以下各层逐步细化。例如“计算机”可分为“软件”和“硬件”……。 除了层次关系之外,概念之间又具有各种联系。,在树型结构起来,。这些横。
212 Robot Robot(机器人)的主要功能就是利用网页中
的超文本链在互联网中漫游、发现和搜集信息。Robot从一个初始URL集开始,顺着超文本链的URL采用深度优先搜索策略对Web进行遍历并
图1 搜索引擎系统框架
211 概念语义网络[2]
智能搜索引擎需要具备符合用户实际需要的
知识库,在搜索时,引擎根据已有的知识库,了解检索词的意义并以此产生联想,从而找全相关文章。适当的知识表示是建立知识库系统的关键,语义网络是其中一种常用的表示方法。 概念语义网络是一个带标识的有向图,其中,节点表示概念,有向边表示概念之间的联系,指明所联接的概念节点之间的某种关系。我们选用计算机领域来构建概念语义网络,如图2所示。图中实心点表示主题词(概念节点),空心点表示非主题词
。
下载文档,以便分析器对其进行处理。系统中维护一个超链队列,其中包含一些起始URL。Robot从这些URL出发,下载相应的页面,并从中抽取出新的超链加入到队列中。上述过程不断重复,直到队列为空。本系统的检索策略主要有:
(1)检查URL的合法性:在扫描URL时,对于不符合规定的URL,将其构造成合法的URL。 (2)限制处理链接类型:因为本系统只处理文本信息,因而对于指向“.ps”“,.zip”“,.Z”“,.gif”,“.jpg”等链接时自动忽略,不予处理。
(3)遵循Robot排斥标准:本系统的Robot访问一个服务器时,首先读取Robots.txt文件,分析该文件后访问相应的合法网页。在访问一个主页时,首先察看Robot.txt文件的限制,只访问那些授权的链接。
(4)限制处理协议的类型:本Robot处理“HTTP”“,FTP”等协议,对于“NEWS”“,WAIS”等协议不予处理。
(5)对访问每个URL的时间的限制:避免Robot陷入黑洞。
图2 概念语义网络示意图
213 索引器[3]
概念具有层次结构,不同的层次表明其抽象的程度不同,层次越高概括性越强,包含的下位概念可能越多。上位概念由一组下位概念组成,上 索引器从Robot抓回的主页中抽取主题词,
对其赋予不同的权值,以表明这些主题词同网页内容的相关度,并从文档的标记项中抽取相应的
Word文档免费下载:基于概念检索的中文搜索引擎(下载1-3页,,共3页)
我要评论
相关主题
相关文档
【论文】基于概念检索的中文搜索引擎的设计与实现
基于概念检索的中文搜索引擎的设计与实现_专业资料。构建语义库和扩展查询是影响概念检索效率的主要因素。提出一种自动构建语义库和相关性查询扩展的方法,方法利用...
基于概念检索的中文搜索引擎研究
本文给出了一种基于概念检索的中文搜索引擎模型.采用“以网对网”技术来实现概念检索,使搜索引擎从基于关键词的检索提高到基于知识的智能检索。基于概念检索的中文...
基于概念检索的中文搜索引擎的设计与实现
基于概念检索的中文搜索引擎的设计与实现_IT/计算机_专业资料。基于概念检索的中文搜索引擎的设计与实现第23 卷第 5 期 2006 年 5 月 计算机应用与软件 ...
四大中文搜索引擎检索性能测评_岳珍
利用中文搜索引擎检索网... 4页 免费 基于概念检索的中文搜索... 3页 7...23, No. 6 June, 2005 四大中文搜索引擎检索性能测评岳 珍 ( 南京大学 信息...
四大中文搜索引擎检索性能测评
是基于中文分词和标注技术的检索工具。 种测评指标体系,从最能反映搜索引擎“...字段检索 加权检索概念检索 自然j 爵言检索 相关j 匠馈检索 目录j £检索 ...
搜索引擎优化排名推广的方式和概念
作为最大的中文搜索引擎, 百度能给各个网站带来的流量大家 都清楚的知道。然而...如对于基于 META 标签检索的搜索引擎,在 META 标签中设置有效 的关键词和网站...
中文搜索引擎现状及检索策略
基于概念检索的中文搜索引... 3页 20财富值 一种提高中文搜索引擎检索... 10页 免费 一种提高中文搜索引擎检索... 4页 免费喜欢此文档的还喜欢...
利用中文搜索引擎检索网络信息资源
利用中文搜索引擎检索网络信息资源_社会学_人文社科_专业资料。搜索技巧...搜索引擎的基本概念搜 索引擎其实是一组或一系列的专用服务器 "可 搜集 & ...
中文智能搜索引擎技术及其对数字图书馆的影响
1 智能搜索引擎简介 智能搜索引擎是结合了人工智能技术的新一代搜索引 擎。 由于它将信息检索从目前基于关键词层面提高到基于 知识 (或概念) 层面, 对知识有一定...
他们刚刚阅读过:
大大精华整理孔轴配合公差表
共点力平衡条件的应用(习题)
十三五战略解读在线学习答案
家用被制作设备
SDCL1005CR33贴片陶瓷电感规格书
绿化费申请书
2014年5月金融管理综合应用考生须知及案例资料
小学语文二年级下册《画鸡蛋》课件
军艺考研-2016年解放军艺术学院艺术硕士艺术基础考研参考书 真题资料
怪鱼拾零
济阳小学一年级语文上册期末考试试卷及答案
图样画法
2012版标点符号用法简表
凶残机器人好玩吗?凶残机器人游戏介绍
2014年12月CET6大学英语六级作文押题
编译原理实验指导书
汽车制动系统维修题库
整式乘法练习题
眼镜店的生意秘诀
西柏坡精神颂
为了进一步增强卫生院的服务管理意识
14.植树的牧羊人ppt
本文关键词:四大中文搜索引擎检索性能测评,由笔耕文化传播整理发布。
本文编号:178672
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/178672.html