当前位置:主页 > 科技论文 > 搜索引擎论文 >

结合本体筛选和文本挖掘的垂直搜索引擎研究

发布时间:2016-12-03 16:45

  本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,由笔耕文化传播整理发布。


nutch,Lucene,PageRank,搜索引擎

计算机科学2008Vol 35 2

结合本体筛选和文本挖掘的垂直搜索引擎研究*

赫建营1 晏海华2 金茂忠3 刘 超4

(北京航空航天大学计算机学院 北京100083)

)

摘 要 针对垂直搜索引擎研究领域的关键技术问题,提出了一个结合本体筛选和文本挖掘的垂直搜索引擎构建思想。首先探讨了作为研究基础的本体和文本挖掘技术,讨论了两者的作用;之后阐述了垂直搜索引擎构建的关键技术,包括基于本体筛选的智能搜索器、结合文本挖掘的网页信息分析及抽取、索引器及查询处理器的构造;最后,对提出的思想进行了实现验证,构造一个面向高校毕业生招聘的垂直搜索引擎原型。关键词 垂直搜索,本体,本体筛选,文本挖掘

ResearchofVerticalSearchEngineIncorporatingwithOntologyFilteringandTextMining

HEJian-Ying1 YANHa-iHua2 JINMao-Zhong3 LIUChao4

(SchoolofComputerScience&Engineering,BeihangUniversity,Beijing100083)

Abstract Thispaperpresentsaconstructionmethodforverticalsearchengineutilizingontologyfilteringandtextminingto-wardsexistingproblemsinthedomain.Firstly,itdiscussesontologyandtextminingaswellastheirapplications.Then,weprovideasetofkeytechniquesfortheconstructionofverticalsearchenginewhichincludeontology-basedWebcrawling,Webpageanalyzingcombinedwithtextmining,indexerandsearcherconstructing.Finally,anevaluationofourproposedideasispresentedbyimplementingaprototypeofjobhuntingsearchenginetowardscollegestudents.Keywords Verticalsearch,Ontology,Ontologyfiltering,Textmining

Internet是一把双刃剑,一方面人们把越来越多的信息推送到网上,极大地推动了信息的共享,另一方面过多的垃圾信息湮灭了用户想要真正获取的 真知灼见 。如何从呈指数级增长的Internet资源库中迅速准确地获取所需信息成为一个亟待解决的问题。搜索引擎以其对Web信息强有力的检索能力成为目前人们从浩如烟海的Internet中获取所需信息的重要途径[1]。然而,即使技术先进如Google和百度这样的通用搜索引擎巨头仍然面临诸如下述的棘手问题尚未解决[2]:

(1)低查准率:查准率和查全率犹如 矛 和 盾 一样难以协和兼得,通用搜索引擎往往以牺牲查准率来获得较高的查全率,而这种做法对有特定信息需求的人群越来越显得无能为力;

(2)搜索的 垂直度 问题:如何针对专业领域的行业需求,更精确地、深入地挖掘和获取用户所需信息既是一个难度很高也是一个亟待解决的现实问题;

(3)可定制性问题:目前已经存在一些垂直搜索引擎,如Google公司的Froogle、Ucloo搜人引擎等,但其所采用的技术与行业应用结合过于紧密,如何快速定制出面向新领域的垂直引擎则需要进一步的探讨。

针对上述问题,本文通过引入本体技术和文本挖掘技术来构造一个面向领域的垂直搜索引擎。首先探讨了本体管理和文本挖掘技术,这是我们进一步研究的技术基础;之后提出了一个结合本体筛选和文本挖掘的垂直搜索引擎构建思想,具体包括基于本体筛选的智能搜索器(Spider/Crawler)、结合文本挖掘的网页信息抽取及分析、分类器和查询处理器的构建等;最后,我们给出了一个基于此思想的原型系统的实现。

1 基础技术的研究

搜索引擎的前身是信息检索(InformationRetrieval),主

要通过对文本信息进行系统性的操作(索引),以方便快速地从大量文档中通过查询(搜索)获取相关信息,其基本流程包含数据收集、特征选择、模型选择、训练、测试、评估等活动[1]。主要部分可以划分为模型和模式结构、评分函数、优化和搜索算法、数据管理策略等几个部分。信息检索在其发展过程中,先后产生了多种信息资源检索工具,其中基于Web的搜索引擎以其界面友好、使用方便成为目前全球最流行的检索工具,为广大用户快速、准确地查询与获取网上信息创造了便利[3]。本文的主要特点在于采用本体技术来筛选与领域相关的Web页面,通过文本挖掘技术来对筛选出的Web页面进行结构化数据自动分析和提取。因而,本体和文本挖掘技术是本文研究的基础,下面就此两项技术进行深入探讨。

1.1 本体的作用及其构造

本体被定义为 概念模型的明确的规范说明 [4],可以用来描述某个领域甚至更广范围内的概念以及概念之间的关系,使得这些概念和关系在共享的范围内具有大家共同认可的、明确的、唯一的定义,这样,人机之间以及机器之间就可以进行交流。

尽管本体的研究日趋成熟,但是很少关注本体的实际应用。Riichiro和Mitsuru提出本体的应用可以分为八个层次[5],其中前三个层次只是作为一个公共的受控词典来为它所索引的知识库内容提供信息骨架,而后五个层次由于涉及到内容,因而更多地和人工智能技术联系在一起。在本文的

*)基金项目:国家自然科学基金资助项目(编号60573084)和武器装备预研基金(9140A15050106HK0114)。赫建营 博士研究生,主要研究领域为软件工程、软件测试技术和知识管理;晏海华 硕士,副教授,主要研究领域为软件工程、软件测试技术和面向对象技术;金茂忠 教授,博导,研究方向为软件工程和编译技术;刘 超 教授,博导,CCF高级会员,主要研究领域为软件工程。


  本文关键词:结合本体筛选和文本挖掘的垂直搜索引擎研究,,由笔耕文化传播整理发布。



本文编号:203508

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/203508.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户28034***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com