基于正则表达式技术的信息搜集引擎应用研究
本文关键词:基于正则表达式技术的信息搜集引擎应用研究,由笔耕文化传播整理发布。
电子科技大学
硕士学位论文
基于正则表达式技术的信息搜集引擎应用研究
姓名:马俊
申请学位级别:硕士
专业:软件工程
指导教师:吴跃
20060511
摘要
摘要
搜索引擎作为Internet上最主要的信息检索工具,在各个领域都已得到广泛应用。然而由于网络信息量的迅猛增加和网络信息组织的无序性,传统搜索引擎的信息检索技术已经无法满足人们对信息服务个性化、智能化的需求。本文提出了专业信息服务的解决方案,并就方案中涉及到的关键技术进行了深入研究。
基于正则表达式技术的信息搜索引擎系统实现搜索引擎的再发展。它拥有目前搜索引擎的绝大部分功能,同时它可以智能化的分析和保存网页重要信息,因此其搜索精度高,并将搜索结果由页面简化到有效信息。同时,系统对搜索引擎的个性化进行了大胆的尝试,取得了相当效果。由于其返回信息的高度简练,其使用范围已经从台式机扩展到了移动终端。
本文首先分析了当前搜索引擎的系统结构,在对目前大部分搜索引擎技术研究的基础上,我们综合其设计思路,给出了~套新的信息检索系统的框架原型,它在现有搜索引擎的基础上进行了模块优化,形成了一套新的搜索引擎结构,并在传统搜索引擎的基础上增加了自学习功能。
其次对网页中文信息处理的提取进行了研究。使用了正则表达式和自学习相结合的方式,利用web结构分析技术对网页进行结构分析和模式匹配,力图使系统拥有自动分析大部分网页并提取和归类保存其中关键信息的功能。
再次我们提出了~种适用于本系统数据库架构方式,在其中加入了策略库部分以支持自学习系统。同时对设计到海量数据记录的情况进行了仿真试验,得到了大量的宝贵经验。
此外,系统在传统中文分词技术的基础上,加入了网页信息分析技术,在原有词库的支持下,能够达到正确、快速的中文分词和新词的分析提取。
文章最后初步研究了信息检索中的个性化技术。通过对用户提交的操作日志的处理,在横向(信息热度)和纵向(信息关联)的分析中,可以得到大量的有效信息并作为重要的网页排名参考。关键词:搜索引擎,正则表达式,自学习
Abs舡act
Abstract
mainkindofmethodtoretrieveinformationon工nternet,searchAsa
enginehasbeenusedwidelyinmanyfields.However,withtherapidlyincreasingofInternetinformation,thetraditionalsearchenginecannotmeetpeople’sdemandsonintelligentandpersonalizedinformationservice。Sothispaperputsforwardintelligentprofessionalinformationsearchengine,andputstheemphasis
withtheontheresearchofthecrucialretrievaltechnology
system.concerningintelligentinformation
Intelligentprofessional
toinformationsearchItcanenginemakeasaprogressthetechniqueofthesearchengine.
engine.
onbeusedatraditionalsavingthesearchAsithastheabilityitofanalyzingmoreandinformation
awebsintelligently,canworkaccuratelyandhasTnuchwidersearchrange.
aThissystemai丁nsatcuttingshorttheresultusefulinformation.工talso
ourofsearchfromawebtomoreexperiencestheindividuationofthesearchengineandachieves
ofthesuccinctnessofgoal.Becausetoo.theoutput,
theitcanbeusedinthemobiles,of
weThiengine.spaperAfteranalyzessystemofstructuretraditionalpromoteanewsearchfra柚eresearchmostsearchengine,
Itstructuretorealizethissystem.improvesallthemodulesofsearch
engine,
functionformstoanewsearchenginestructureandtrytoaddself1earningmoremakeitintelligent.
Paperalsocontains
ontheresearchesofprocessingoftheinformationitanalysesand
structure
saveswebs.WiththehelDofREsandselflearningsystem,structure,matcheswebs’analyzing.
information
Anewusingthetechnologycouldofwebs’upWithonthismodule,systempicksandkeywebsautomatic.isdatabasestructureisoffered.Thekeypart,strategylib,addedfortheself1earningfunction.Weexperienceitina11thethecasecases.ofmuchlargenumberofinformationjncluding.Ⅱ
Abs打act
ToimprovetheextractingwordsinChinese,werealize
basedonanewmethod,thewebtraditional
Itwordsdictionary,self1earningandanalyzing.
newcouldextractwordscorrectlyandrapidly,andidentifywords.
Attheend,paperdescribestherealizationofthepersonalization.Itcouldanalyzetheoperationlogs.Afteranalyzingthembreadthwise(Informationhotspot)andlengthways(informationrelationship),couldgetmuchusefulinformationforarrangingwebs.
Keywords:searchengine,REs,selflearningIIIit
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。
签名:刍5莹.日期:2∞6年f月心日
关于论文使用授权的说明
本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)日期:如“年j月心日
本文关键词:基于正则表达式技术的信息搜集引擎应用研究,由笔耕文化传播整理发布。
本文编号:216578
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/216578.html