基于教育领域的垂直搜索引擎的研究与设计
本文关键词:基于教育领域的垂直搜索引擎的研究与设计,由笔耕文化传播整理发布。
《兰州交通大学》 2014年
基于教育领域的垂直搜索引擎的研究与设计
张锦
【摘要】:随着互联网技术的急速发展,网上的信息资源也呈现出爆炸式增长,这种信息的增长体现在互联网的各个领域,尤其是在教育领域。互联网为广大网民提供了丰富的网上学习资源以及教学资源。我们可以很方便的对这些资源进行访问和下载,但是,如何准确即时的找到自己所需要的教育资源也成为当今社会所面临的一个重要问题。 传统的搜索引擎查询结果数量巨大,用户很难在其中找到自己所需要的专业性很强的资源。随着垂直搜索引擎的出现,这种情况得到了较大的改善。垂直搜索引擎是相对通用搜索引擎的查询不准确、深度不够等局限性提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。 本文在研究了大量的搜索引擎技术的情况下,采用Lucene作为底层包,,开发出了一个基于教育领域的垂直搜索引擎, 论文首先对垂直搜索引擎的产生背景及国内外的发展状况作了简单的介绍,详细阐述了垂直搜索引擎的主要组成部分,包括主题爬虫、网页资源预处理、中文分词等。并且对Lucene核心模块进行了介绍,包括索引模块和检索模块。 然后,通过对搜索引擎关键技术的研究,分析并设计了垂直搜索引擎的系统结构及实现框图。 论文的核心内容主要是对主题爬虫进行了研究,现有的主题爬虫算法较著名的是Fish-search和Shark-search算法。通过对其优缺点的分析研究,改进了爬虫算法。并实现了基于Fish-search算法改进的爬虫算法,和基于VSM主题匹配的算法,提高了爬取的效率同时也提高了抓取网页的主题相关性。将抓取的网页进行除噪预处理,来获得网页的文本内容 论文最后开发出了基于教育领域的垂直搜索引擎。利用Lucene主要实现了索引模块和检索模块,创建索引文件的过程中采用了一种新的索引方法,即只对关键词和标题内容进行索引。经过实验验证,这种创建索引的方法,能够在很大程度上降低索引文件的大小并且提高了检索的效率。
【关键词】:
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
3 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期
4 李国和;刘光胜;秦波波;吴卫江;李洪奇;;综合最大匹配和歧义检测的中文分词粗分方法[J];计算机工程与应用;2012年14期
5 张成洪;古晓洪;白延红;;Web数据抽取技术研究进展[J];计算机科学;2004年02期
6 王晶;戎玫;张广泉;祝义;;基于概率模型检测的Web服务组合验证[J];计算机科学;2012年01期
7 宋宇;孟祥增;;基于改进Fish-search算法的多媒体检索[J];计算机工程;2008年11期
8 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
9 王振华;;基于Hopfield神经网络的数据分类[J];计算机应用;2011年S2期
10 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
【共引文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
3 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
4 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
5 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
6 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
7 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
8 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
9 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
10 马应龙;张世鹏;刘绍华;金蓓弘;;用于分布式语义查询的语义逼近方法[J];北京邮电大学学报;2008年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
9 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
10 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 邝砾;基于接口和行为语义的Web服务发现与适配研究[D];浙江大学;2009年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
6 祝希路;基于QoS的可信Web服务关键技术研究[D];北京邮电大学;2011年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
10 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期
2 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 沈艳,郭兵,古天祥;粒子群优化算法及其与遗传算法的比较[J];电子科技大学学报;2005年05期
5 储荷婷;国际互联网检索工具:特点、比较和发展方向[J];大学图书馆学报;1997年03期
6 林惠民,张文辉;模型检测:理论、方法与应用[J];电子学报;2002年S1期
7 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期
8 张长胜;孙吉贵;欧阳丹彤;;一种自适应离散粒子群算法及其应用研究[J];电子学报;2009年02期
9 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
10 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
2 宋迪;基于用户偏好的搜索引擎的指标分析与评价[D];哈尔滨工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;[N];中国经营报;2006年
2 王艳;[N];中国旅游报;2000年
3 王靖;[N];人民日报海外版;2000年
4 杨国民;[N];经济日报;2007年
5 本报记者 王晓雁;[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
7 中新;[N];经理日报;2008年
8 源讯 编译;[N];计算机世界;2006年
9 赛迪网 方刚;[N];中国计算机报;2000年
10 ;[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
本文关键词:基于教育领域的垂直搜索引擎的研究与设计,由笔耕文化传播整理发布。
本文编号:52039
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/52039.html