基于Python技术的校园网搜索引擎的设计与实现
本文关键词:搜索引擎用户行为与用户满意度的关联研究,,由笔耕文化传播整理发布。
《燕山大学》 2015年
基于Python技术的校园网搜索引擎的设计与实现
耿大伟
【摘要】:随着数字校园的发展,校园网络信息呈现爆炸式的增长,信息的查找和定位变得更为困难,目前一般采用通用搜索引擎的站内搜索来进行信息的查找,但是由于通用搜索引擎往往不能及时收录最新发布的消息,并且校园网内有些使用二级域名或者直接使用IP地址访问的网站不容易被通用搜索引擎收录,所以使用传统的通用搜索引擎来搜索校园网的信息,越来越不方便。针对上述问题,本文以燕山大学校园网为研究对象,在分析了网络搜索引擎的原理、核心模块和运行流程的基础上,探索性地研究并实现了一个在Linux平台下基于Python技术的面向校园网的原型搜索引擎。首先,本文给出了搜索引擎的简要工作流程,介绍搜索引擎中的一些关键的技术,并着重分析了目前广泛运用的BM25搜索引擎检索模型。其次,通过使用基于Python语言的Scrapy开源爬虫框架,Beautiful Soup网页解析库,对搜索引擎的爬虫模块进行开发,指出了Scrapy框架原有的URL去重方法会导致针对大规模网站抓取时,内存耗费过大的问题,并提出了一种使用布隆过滤器对Scrapy爬虫框架的URL去重功能进行改进的方案。同时,根据实际经验,提出了两种防止爬虫被ban的策略。再次,利用基于Python语言的Whoosh索引检索库,对本系统索引检索模块进行开发。针对Whoosh对中文分词效果不好的问题,提出了使用jieba开源分词组件来对Whoosh的中文分词功能进行改进。通过使用基于Python语言的Flask框架,来实现用户界面,使用户可以通过网页端使用本校园搜索引擎系统。最后,对原型系统进行测试,并与谷歌、百度两大通用搜索引擎的站内搜索结果做比较,测试证明,本原型系统的搜索结果,要略好一些。
【关键词】:
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.18
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 刘健;刘奕群;马少平;张敏;茹立云;张阔;;搜索引擎用户行为与用户满意度的关联研究[J];中文信息学报;2014年01期
2 史宝明;贺元香;吴崇正;;主题搜索引擎中爬虫搜索策略的研究[J];计算机工程与应用;2014年02期
3 高家利;廖晓峰;;改进的Bloom Filter算法及其性能分析[J];计算机工程与设计;2009年03期
4 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
5 韩如冰;叶得学;;基于VSM的权重改进文档相似度算法研究[J];软件;2012年10期
6 闫俊伢;;基于MD5的网页去重算法的设计与研究[J];实验室研究与探索;2013年12期
7 徐娜;刘四维;汪翔;倪卫明;;基于Bloom Filter的网页去重算法[J];微型电脑应用;2011年03期
8 许剑颖;;搜索引擎发展趋势研究[J];现代情报;2011年09期
9 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
10 林美娜;苏玉;张红艳;;基于VSM的个性化信息过滤算法的研究[J];微型机与应用;2012年21期
【共引文献】
中国期刊全文数据库 前10条
1 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
2 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
3 王飞红;丁泽发;;基于Lucene的垂直搜索引擎设计与实现[J];电子技术与软件工程;2014年05期
4 沈平;桂志鹏;游兰;胡凯;吴华意;;一种主动发现网络地理信息服务的主题爬虫[J];地球信息科学学报;2015年02期
5 徐芳;;搜索引擎的信息组织方式浅析[J];科技情报开发与经济;2012年07期
6 刘雪君;王鲁燕;杨学红;;有关搜索引擎的文献增长规律研究[J];农业图书情报学刊;2012年05期
7 周远超;叶枫;高依旻;张雪洁;;水利垂直搜索引擎的研究[J];计算机与数字工程;2012年10期
8 孙战彪;;非结构化P2P网络资源搜索算法研究[J];科技信息;2013年10期
9 王沐心;;门户网站保密检查系统[J];计算机与现代化;2013年10期
10 卢静;唐先富;陈淑娟;;搜索引擎与信息导航的发展研究[J];内蒙古科技与经济;2013年24期
中国博士学位论文全文数据库 前1条
1 张伟男;社区型问答中问句检索关键技术研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前10条
1 栾艳;基于段落指纹的大规模近似网页检测算法研究[D];南京理工大学;2012年
2 汤伟;Android应用程序框架安全机制研究及改进[D];宁波大学;2012年
3 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
4 齐文龙;基于爬虫技术的基金信息采集系统的设计与实现[D];天津大学;2012年
5 张芳;校园网搜索引擎中网页去重技术的研究[D];内蒙古科技大学;2012年
6 勾智楠;垂直搜索引擎的研究与实现[D];河北科技大学;2012年
7 吕舜;基于人工标注的搜索引擎评估方法与实现[D];大连理工大学;2013年
8 黄涛;布隆过滤器在网页去重中的研究与应用[D];大连海事大学;2013年
9 徐显炼;分布式在线旅游搜索爬虫系统设计与实现[D];北京邮电大学;2013年
10 韩露;基于用户兴趣模型的个性化搜索系统的研究[D];西南大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 郭彦秋;;浅析百度与谷歌两搜索引擎的比较与分析[J];才智;2012年06期
2 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
3 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期
4 王春红;张敏;杨秀荣;;基于Web的信息过滤系统的设计与实现[J];电子科技大学学报;2009年S1期
5 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
6 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
7 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
8 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
9 韩正服;杨喜权;张一鸣;丛荣华;;基于特征码的大规模XML文档去重研究[J];中国管理信息化(综合版);2006年07期
10 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前3条
1 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 姚漫;基于文本聚类的网页消重算法研究[D];北京交通大学;2008年
3 李宪雷;元搜索关键技术研究与实现[D];北京工业大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 李爱宁;唐勇;孙晓辉;刘昕彤;;基于Python语言的3DES算法优化[J];计算机系统应用;2011年08期
2 江岸;;基于Python的网络游戏脚本系统的设计与实现[J];电脑知识与技术;2013年09期
3 ;Python正在取代R成为数据科学界新宠[J];电脑编程技巧与维护;2014年01期
4 ;Guido van Rossum[J];程序员;2002年03期
5 罗霄,任勇,山秀明;基于Python的混合语言编程及其实现[J];计算机应用与软件;2004年12期
6 张志艳;刘万军;王艳娟;;基于Python的行为型模式设计[J];辽宁工程技术大学学报;2004年S1期
7 胡守超;;基于Python语言的音频捕获及频谱分析设计[J];电脑编程技巧与维护;2009年09期
8 胡守超;;基于Python语言的音频捕获及频谱分析程序设计[J];微型电脑应用;2009年04期
9 何惠英;付少波;安居;付兰芳;;用Python语言分析银行自助设备交易流水文件[J];现代电子技术;2010年05期
10 彭树林;;Python在嵌入式项目中的辅助开发[J];信息系统工程;2010年07期
中国重要会议论文全文数据库 前6条
1 ;Development of Python-based ArcGIS Tools for Spatially Balanced Forest Sampling Design[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
2 伊鹏跃;于哲峰;汪海;;基于Abaqus/Python的三维复合材料层压板有限元建模参数化开发[A];第17届全国复合材料学术会议(复合材料结构设计与性能表征分论坛)论文集[C];2012年
3 黄佳聪;高俊峰;;基于Python编程语言的空间动态模型集成[A];自然地理学与生态安全学术论文摘要集[C];2012年
4 于文丽;;基于Python的空间自相关模式研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
5 郭霞;关志东;刘遂;陈萍;刘佳;王欣晶;邱太文;;基于Python的Abaqus二次开发在层压板修理模拟中的应用[A];计算机辅助工程及其理论研讨会2013(CAETS2013)论文集[C];2013年
6 李森;付莉;;英语及相关日耳曼语言词频与词长的对比研究[A];语言与文化研究(第四辑)[C];2009年
中国重要报纸全文数据库 前6条
1 高寿福;[N];中华读书报;2001年
2 ·特约作者 邹肇辉;[N];电脑报;2005年
3 易水;[N];计算机世界;2004年
4 本报记者 蒙克;[N];网络世界;2009年
5 ;[N];计算机世界;2006年
6 周蓉蓉;[N];计算机世界;2006年
中国硕士学位论文全文数据库 前10条
1 胡忠帅;基于Python的企业安全漏洞管理方法研究[D];北京邮电大学;2015年
2 王国强;基于Python的SDG-HAZOP软件中推理规则问题的研究[D];北京化工大学;2009年
3 李悦;基于Python+Tkinter的Linux GUI辅助管理工具的设计与实现[D];吉林大学;2009年
4 王健;Python插件在CG制作管理中的应用[D];南京理工大学;2008年
5 李鑫;基于Python的软件测试自动化平台[D];太原科技大学;2014年
6 刘丽媛;基于Python的半导体测试软件系统的设计与实现[D];北京交通大学;2013年
7 周一丁;基于面向服务并行计算的Python计算网格[D];上海交通大学;2008年
8 雷雨;基于Python脚本的电力规约通用测试技术研究[D];电子科技大学;2012年
9 孟繁超;基于Python的嵌入式开发工具的设计与实现[D];郑州大学;2014年
10 倪志嘉;基于Python的CRM系统接口自动化测试设计与实现[D];上海交通大学;2012年
本文关键词:搜索引擎用户行为与用户满意度的关联研究,由笔耕文化传播整理发布。
本文编号:195131
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/195131.html