垂直搜索引擎主题特征提取及相关度算法研究
本文关键词:垂直搜索引擎主题特征提取及相关度算法研究,由笔耕文化传播整理发布。
《长安大学》 2007年
垂直搜索引擎主题特征提取及相关度算法研究
段一飞
【摘要】: 搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困难,综合性的搜索引擎已不能适应用户对信息检索的准确性要求,专业化的、面向主题的垂直搜索引擎正成为研究的热点与发展趋势。 本文重点研究中文Web主题信息获取与检索技术,设计和实现了一个以计算机专业技术文献信息采集为核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 论文分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略存在的缺陷。针对中文分词中歧义字段的切分问题,提出一种对中文句子进行分词预处理的方法,在预处理的基础上实现了一种改进的MM算法,使分词系统在机械分词阶段具有比MM算法更好的效果。 针对垂直搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的V-Page-Rank搜索策略,指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效地实现搜索引擎的专业化。在信息检索方面,提出了基于向量空间模型的自适应分类算法IVSM对网页从内容和结构两方面进行相关性过滤。 论文提出了基于网页分块的爬行算法。解决了网页多主题的困难,并有效地去除了网页中的噪音信息,使得网络爬行的启发信息能准确地被收集。提出了一种比较理想的垂直搜索引擎设计方案,并实现了一个面向计算机主题的垂直搜索引擎系统CTLS。研究并设计出了适合专业资源采集的分布式Robot体系结构。 最后总结了面向计算机专业技术主题的垂直搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。
【关键词】:
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库 前10条
1 刘博卿;;基于军事工程兵的垂直搜索引擎研究[J];科技创新导报;2011年18期
2 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
3 王晓春;李慧;;面向教育的垂直搜索引擎框架及其应用[J];电化教育研究;2011年09期
4 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
5 郭锐;;新型垂直育儿搜索引擎“智能育儿通”的研究与实现[J];天津科技;2011年03期
6 李光敏;陈年生;许新山;;面向网页结构特征的Hopfield算法[J];计算机系统应用;2011年07期
7 孔云;杨婷;;开源信息检索技术在高校图书馆的应用——以昆明理工大学图书馆为例[J];湖南科技学院学报;2011年08期
8 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 赛迪网 方刚;[N];中国计算机报;2000年
2 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
3 王艳;[N];中国旅游报;2000年
4 王靖;[N];人民日报海外版;2000年
5 记者 王浒;[N];中国旅游报;2009年
6 本报记者 王宏;[N];中国计算机报;2001年
7 徐瑾 张玉;[N];人民邮电;2009年
8 记者 吴德群;[N];深圳特区报;2009年
9 本报记者 王晓雁;[N];法制日报;2009年
10 本报记者 胡钰;[N];华夏时报;2009年
中国博士学位论文全文数据库 前3条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
6 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
7 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
8 刘大伸;垂直搜索引擎技术的研究及实现[D];东北大学;2008年
9 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
10 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
本文关键词:垂直搜索引擎主题特征提取及相关度算法研究,,由笔耕文化传播整理发布。
本文编号:64166
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64166.html