针对计算机学科资源的垂直搜索引擎的设计与实现

发布时间：2020-03-20 02:03

【摘要】：随着互联网的发展和数据量的指数型增长,各个领域充斥着大量信息。增加网络检索的可靠性和专业性成为了各领域的重要任务。因此,本文把结合垂直搜索引擎的技术开发出针对计算机学科资源的搜索引擎平台作为研究目的。本文首先从用户需求、爬虫结构、分词索引等角度分析了现存的各大搜索引擎的研究现状,结合本设计的需求提出新的要求,对搜索引擎的核心组件数据采集(网络爬虫)、数据处理、索引、检索器等功能和原理进行研究和描述。针对计算机领域的知识进行结构化处理,改善了其搜索功能,在设计搜索引擎时对以下几项技术在实现时进行了优化:一是对爬虫算法进行了优化,引入了爬虫对URL的判别机制,减少了爬虫的爬取次数,从而提高了搜索引擎的运行效率;二是针对计算机学科资源对文本分类和分词方法进行优化,让搜索引擎对这一领域信息判断更加准确;三是根据目前对搜索引擎结果页的研究对系统的用户友好度进行优化。本文主要工作分为以下几个方面:(1)设计爬虫程序和爬虫策略以取得结构化的计算机学科资源数据,对网页代码构造结构树,实现网页分块,根据网页元素信息xpath找到所在的文档对象,获取结构化数据。(2)面对获取数据重复,数据损坏等情况,将Jaccard算法引入到搜索引擎领域,提出通过两步编码的方式用于数据预处理。Jaccard的思想是将两个集合的交集与并集的比例作为两个集合的相似度。结合以上内容本文提出一种重复信息筛选方法,对结构化数据信息进行筛选处理。(3)研究了搜索结果页面要素分布对搜索体验的影响。一方面嵌入新型页面元素,使搜索结果页面呈现垂直化、多样化特征;另一方面结合用户的搜索行为数据,包括眼球、光标、手势、声学等各类数据,实现对用户意图的预测。在以上工作的基础上,对实现的针对计算机学科资源的垂直搜索引擎中的检索功能和网络爬虫进行功能测试,保证系统数据的信息准确性。
【图文】：

搜索引擎,主要结构,内容呈现

第二章基本理论逡逑络应用程序，它面向网络环境中海量数据，面向数互联网，正因如此面向ｗｅｂ的数据收集是现今主流和事务，跟踪时势的有效途径。搜索引擎的主要结，通过ｗｅｂ爬虫在各个网页采集数据并更新其中的存，并对储存的信息进行处理。处理方法包括摘要建索引。用户将想要搜索的内容提交给搜索引擎，的内容呈现给观众，，并按一定的算法进行排序。逡逑

流程图,使用者,搜索引擎,索引

图２－２搜索引擎索引流程图逡逑使用者开始进行gぷ魇保低巢豢赡馨咽褂谜呱洗畔⒂胨斜镜匚募衅シ绞剿俣嚷实停曳浅Ｏ姆衿髯试础Ｒ虼讼低郴岚鸭和瓿赏惩骋淮砜庵小Ｋ阉饕婢庵中问接呕辰峁怪螅椭皇Ｏ驴梢蕴峁鳎澹庑畔⒛谌莸拇怪彼阉饕婕际蹂义洗怪彼阉饕娴慕峁瑰义舷低车敝校枰酝缥谋镜乃鸭δ埽杉际莸脑ご砉δ埽⑺饕图斐嬖谑莶杉？橹写τ诤诵牡匚唬欢显谕缰械玫绞荩衬谌荽娲⒌北境＜莱胬此担撬鸭鳎澹庑畔⒎绞绞峭ü廊。鳎澹獾模眨遥蹋庋ト〕鲆恢郑馕募孀呕チ姆⒄梗缟洗蟛糠值耐扯际嵌常桓鐾吃诓蝗∫不峄竦貌煌慕峁虼伺莱婊竦檬菥哂惺毙裕杉？橹信莱嫘枰诓煌煌辰信廊。欢现匦率涑觯鳎澹庑畔ⅰｅ义显纪持信廊〉降氖荩莸酱砟？橹葱行畔⒃ご砉δ埽饕？槭撬阉

本文编号：2591071

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2591071.html

上一篇：基于笛卡尔积压缩的负表约束上相容性算法的研究
下一篇：基于多源信息的配电网故障定位技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|