FileFinder:桌面搜索引擎的设计与实现
【图文】:
终的分析结果发往索引系统,索引系统首先得到倒排索引(invertedindex)[9]表存入内存,再将倒排索引表写入磁盘,称为倒排文件;搜索过程即Lucene根据用户提供的关键字/词,从倒排索引文件中找到与关键字/词相匹配的数据源,并计算每个数据源的匹配度,再由应用程序将数据源按匹配度顺序返回给用户的过程。倒排索引是目前搜索引擎公司最对搜索引擎最常用的存储方式,Lu-cene正是使用了倒排索引作为其索引结构。限于篇幅,本文对Lucene的索引结构不再详述。图1搜索应用与Lucene的层次关系4音乐、图像文件的属性信息如第2节所述,FileFinder将获取音乐文件的TAG属·2628·
Finder这3个模块中索引器模块的实现是最关键的,因为要根据什么内容进行搜索,就要索引相关的信息,因此索引的建立部分是整个软件的核心,也是决定整个软件功能的部分。本节将对索引器模块进行详细介绍。索引器模块实现分词和建立索引文件,是整个软件框架的核心;FileFinder的一个优势,即文件属性的获取和利用,也是通过索引器模块来实施的;此外,索引的速度对Filefinder软件搜索的效率至关重要。因此,索引器模块使用3个子模块(获取文件子模块、获取信息子模块和写信图2FileFinder搜索引擎组成模块息到索引子模块)以流水线方式并行执行磁盘文件扫描、获取并处理数据、建立索引文件的工作。5.1获取文件子模块如图2所示,索引器模块中获取文件子模块的功能是遍历磁盘或者根据用户需要遍历某个磁盘分区或某个目录/子目录,获取其中的文件。当需要获取的文件数量比较多时,该操作耗时很大,从整个索引器模块的3个子模块分别遍历获取文件,分析文件,建立索引整个过程来看,绝大部分时间是耗费在遍历磁盘以及写索引文件到磁盘,因此本项目使用操作系统提供的3个Win32API函数Find-FirstFile,,FindNextFile和FindClose来完成获取文件子模块的工作以提高速度。5.2获取信息子模块从软件架构来看,获取信息子模块为索引器模块提供文件属性、MP3属性、图片属性等信息,是整个软件功能的重要组成部分和难点所在。由于不同文件的属性信息存放形式不同,如音乐文件属性信息是MP3文件末尾的128个字节,而图片的EXIF信息是以十六进制表示的数组,不能直接读取数组值
【相似文献】
相关期刊论文 前10条
1 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
2 ;第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)在山东大学举行[J];山东大学学报(理学版);2006年03期
3 那罡;;移动搜索的“简单”逻辑[J];中国计算机用户;2006年26期
4 蔡建超;郭一平;王亮;;基于Lucene.Net校园网搜索引擎的设计与实现[J];计算机技术与发展;2006年11期
5 ;网络[J];电脑爱好者;2007年04期
6 ;使用搜索引擎的另类技巧[J];计算机与网络;2007年06期
7 孙成福;;网络搜索引擎的技巧与使用[J];福建电脑;2008年02期
8 杨志;;元数据在中文搜索引擎的应用研究[J];科技信息(科学教研);2008年09期
9 陈春阳;;对互联网搜索引擎的初步认识[J];硅谷;2009年10期
10 沈鑫;;如何“优+”搜索引擎账户[J];成功营销;2009年08期
相关会议论文 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年
9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 萨晓静;;网络化生存下的图书馆改革之路[A];福建省图书馆学会2008年学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 博文邋译;你的隐私 搜索引擎知道[N];计算机世界;2007年
2 杨洁;搜索引擎营销市场生变[N];中国计算机报;2007年
3 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
4 ;法国挑战谷歌推出卫星地图搜索引擎[N];人民日报;2006年
5 MirrorCity.net技术总监 姚浩;让搜索引擎回归最初梦想[N];中国文化报;2008年
6 本报记者 操秀英;国双科技以技术加服务赢得市场[N];科技日报;2009年
7 赵敏;“鱼群理论”破解搜索营销谜局[N];中国企业报;2007年
8 本报记者 樊哲高;搜索引擎三国纷争 中文市场两军对垒[N];中国电子报;2009年
9 EndTo;优化Meta讨好搜索引擎[N];电脑报;2009年
10 本报记者 马文方;Yebol:从思维科学导出搜索引擎[N];中国计算机报;2010年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
相关硕士学位论文 前10条
1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
4 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
5 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年
9 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
10 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
本文编号:2558880
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2558880.html