分布式全文检索系统中索引平台和信息过滤的研究与应用
本文关键词:中文信息检索索引模型及相关技术研究,由笔耕文化传播整理发布。
《中国科学技术大学》 2015年
分布式全文检索系统中索引平台和信息过滤的研究与应用
王一霈
【摘要】:随着网络时代的飞速发展,数据和信息充斥着社会生活的各个领域。人们的日常行为逐渐和网络密不可分,人们利用网络获取新闻、进行社交活动和即时通讯,发送和记录工作文档等,这些行为产生的数据都被存储在网络中。由于网络和大数据带来的变革,人们日常获取的信息量在急速增加,人们获取信息的方式也更为复杂和多样。分布式计算技术和全文检索技术是应对大数据洪流的有效工具,前者能够负载海量数据,后者能够在大规模数据中快速检索到有用信息。 本文的研究背景是分布式全文检索系统,该系统针对海量多格式文件进行存储并支持快速文本检索。系统采用分布式架构设计,能够并发完成文件预处理、建立索引及存储功能,并将文件存储在分布式文件系统中。分布式全文检索系统包含如下结构:文件预处理前端、分布式索引平台、分布式文件存储系统、索引管理平台和web检索平台。其中,文件预处理前端和分布式索引平台协同完成对大规模多格式文件中文本内容的索引任务;索引管理平台和web检索平台协同完成对索引文件的管理和检索任务;分布式文件存储系统负责为系统中的各个模块提供文件存储和管理支持。 本文主要设计并实现了分布式全文检索系统中的分布式索引平台,索引平台基于Hadoop分布式计算库构建,实现了对海量文本文档并发建立索引。本文提出了索引平台的基本架构,阐述了索引平台的分布式计算过程、索引平台中的共享与并发机制和索引评分机制等。本文还设计实现了文件预处理前端中的信息过滤模块,信息过滤模块可实现基于关键词的文档过滤功能,识别系统不需要处理的文档。信息过滤模块主要包括以下内容:单模式匹配模块、多模式匹配模块以及与或匹配模块。本文研究了每个模块相关的基本算法,针对算法在中文环境下实际应用中的不足进行了改进,测试结果表明改进后的算法性能得到了进一步提升。
【关键词】:
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前6条
1 代红;陈壮;;中文信息技术的基础标准与中文编码字符集的国际标准化[J];信息技术与标准化;2008年07期
2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
3 袁世忠;曹旻;王燕燕;;基于WM算法的多模式匹配改进算法WMN[J];计算机工程与应用;2007年15期
4 秦璟,高文,储方杰;中间件技术研究[J];计算机应用研究;2003年08期
5 白俊;郭贺彬;;基于ElasticSearch的大日志实时搜索的软件集成方案研究[J];吉林师范大学学报(自然科学版);2014年01期
6 刘卫国;胡勇刚;;DHSWM:一种改进的WM多模式匹配算法[J];中南大学学报(自然科学版);2011年12期
【共引文献】
中国期刊全文数据库 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
4 苍圣;高巍巍;马宪敏;;中间件技术在电子商务中的应用[J];长春理工大学学报(高教版);2009年12期
5 龚跃;丁健生;韩永林;李宇宏;王玉琢;葛山;许展博;;基于Mobilink技术的数据传输系统设计与实现[J];长春理工大学学报;2006年04期
6 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
7 汤国锋;徐振伟;张华熊;;基于Lucene的中文分词技术研究[J];电脑编程技巧与维护;2012年10期
8 刘强,宋晔,王涛;基于消息中间件的网络报税系统的设计与实现[J];电脑开发与应用;2004年09期
9 康松林;施荣华;;基于信息元的教学资源组织系统的设计与实现[J];电脑与信息技术;2006年04期
10 叶敏;范金锋;;基于二叉排序树及中文分词的关键字过滤技术[J];电力信息化;2011年07期
中国重要会议论文全文数据库 前10条
1 李珺;查先进;;基于信息资源整合技术的网络信息资源配置研究——以“信息孤岛”现象为例[A];信息资源配置理论与模型研究——2009信息化与信息资源管理学术研讨会专集[C];2009年
2 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 祁昊颖;;大数据时代电信运营商文件系统新思考[A];2013年中国信息通信研究新进展论文集[C];2014年
4 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
5 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
6 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年
7 李天磊;马兆丰;;应用层协议识别中AC算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
8 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
9 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
10 汪中琳;乔自知;郭景赞;;移动运维支撑系统的互联网思维重构[A];2014全国无线及移动通信学术大会论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 王晓辉;基于中间件技术的黄河水环境综合信息服务平台研究[D];西安理工大学;2006年
2 夏天;研究性学习支持系统[D];华东师范大学;2007年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 谢夏;网格信息服务的性能及其模拟评估[D];华中科技大学;2006年
5 王少波;面向用水户的水资源合理配置研究[D];西安理工大学;2007年
6 张楠;Web Services管理及其在网络管理中的应用[D];北京邮电大学;2008年
7 聂晓文;DHT覆盖网若干基础性问题研究[D];电子科技大学;2009年
8 桂劲松;网格虚拟组织的声誉评价与可信授权研究[D];中南大学;2008年
9 陶永才;网格环境下作业可靠调度机制的研究[D];华中科技大学;2009年
10 张浩;基于结构化对等网络的高性能计算平台关键技术研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 申安来;网格环境下资源发现决策支持算法研究[D];辽宁师范大学;2010年
6 武晓鹏;消息服务组件队列机制的研究与设计[D];华南理工大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
9 薛秀珍;结构化P2P网络的复杂查询机制研究[D];昆明理工大学;2010年
10 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
2 王永成,沈州,许一震;改进的多模式匹配算法[J];计算机研究与发展;2002年01期
3 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
4 李雪;薛一波;王春露;;一种适用于大规模特征集的快速匹配算法[J];计算机工程与应用;2007年34期
5 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
6 张鑫,谭建龙,程学旗;一种改进的Wu-Manber多关键词匹配算法[J];计算机应用;2003年07期
7 杨寒冰;赵龙;贾金原;;HBase数据库迁移工具的设计与实现[J];计算机科学与探索;2013年03期
8 周丽琴,杨季文,吕强;基于Web的字词频统计程序的设计与应用[J];苏州大学学报(自然科学);2002年01期
9 吕增辉;陶振凯;唐静;;基于Lucene.net的对象持久化的实现[J];吉林师范大学学报(自然科学版);2009年01期
10 李伟勋;;Mersenne数M_p都是孤立数[J];数学研究与评论;2007年04期
【相似文献】
中国期刊全文数据库 前10条
1 余海燕,张仲义;基于单汉字索引的全文检索系统的优化研究[J];中文信息学报;2001年04期
2 孙咏波;郭红锋;;天文文献全文检索系统的研究与实现[J];天文研究与技术;2007年03期
3 莫夫;;基于通用全文检索系统的需求分析[J];电脑知识与技术;2009年21期
4 刘成;张溯柳;范晶;;统一新闻全文检索系统的探索与实践[J];中国传媒科技;2010年05期
5 李云帆;韩敏;;一个多文档全文检索系统的设计与实现[J];中小企业管理与科技(下旬刊);2010年05期
6 梁苑苑;何婉文;王佳;;全文检索系统在网站中的应用研究[J];电脑知识与技术;2012年04期
7 刘宁;汉字全文检索系统的分析、设计 从湖北省地方志全文检索系统的研制谈系统功能及设计方法[J];现代图书情报技术;1988年02期
8 加贝;“湖北省地方志全文检索系统”通过鉴定[J];图书情报知识;1990年04期
9 陈睿,陈光祚,谢新洲;湖北省地方志全文检索系统(上)[J];情报理论与实践;1991年02期
10 赵捧来;;全文检索系统的实现方法研究[J];西安电子科技大学学报;1992年01期
中国重要会议论文全文数据库 前2条
1 赵慧;李春明;鲍可进;;一种基于DotLucene搜索引擎的知识库中文全文检索系统[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 周小庭;;用Info Digger全文检索系统构建首都师大基教中心网上平台[A];OA’99办公自动化全国学术研讨暨展示会论文集[C];1999年
中国重要报纸全文数据库 前2条
1 肖诗斌;[N];中国计算机报;2003年
2 罗懿;[N];中国企业报;2000年
中国博士学位论文全文数据库 前1条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 何胜利;矿山法律法规全文检索系统的研究与应用[D];西安建筑科技大学;2005年
2 杨镒菲;基于云存储的分布式全文检索系统的设计与实现[D];华南理工大学;2012年
3 蔡晶晶;多文档全文检索系统的设计与开发[D];电子科技大学;2013年
4 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
5 刘超;专利全文检索系统的设计与实现[D];北京邮电大学;2010年
6 李秦;基于用户行为的全文检索系统个性化推荐研究[D];西南大学;2009年
7 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
8 王磊;基于本体的语义全文检索系统的研究[D];哈尔滨工程大学;2013年
9 周宇;数字化法定公务文书全文检索系统研究[D];郑州大学;2007年
10 方艳芬;多源文档全文检索系统设计与实现[D];华中师范大学;2009年
本文关键词:中文信息检索索引模型及相关技术研究,,由笔耕文化传播整理发布。
本文编号:65708
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/65708.html