大数据的全文检索研究
发布时间:2020-06-10 16:14
【摘要】:随着互联网技术的持续快速发展,人类社会进入了一个前所未有的信息化时代,那就是大数据时代。在大数据时代,人们掌握的数据在以爆炸性的速度增长,因而大数据的存储和分析方法成为处理大数据的关键。大数据不仅仅是数据量的增长,数据的形态也在发生着根本性的变化。据统计,目前互联网上80%以上的数据都是非结构化数据。因此,研究如何处理大规模非结构化数据,成为解决人们在大数据时代如何快速获取有效信息的必由之路。 全文检索是信息检索领域一个非常重要的研究方向,它在非结构化数据处理方面具有无可比拟的优势,它的核心就是索引技术。本文着重介绍了两种不同索引结构的索引模型,分别是基于外存的B+树索引模型和基于外存的线性散列索引模型,并对两种索引模型的性能进行了比较实验研究。 首先,本文介绍了本课题的研究背景和研究意义,以及国内外对大数据和全文检索系统的研究现状,并结合国内外研究进展情况提出了本文的研究内容、研究目标和拟解决的关键问题。对大数据的概念、全文检索的概念、系统的整体架构设计及全文检索系统涉及到的关键技术也进行了详细阐述。 其次,本文研究了基于两种不同索引结构的全文检索系统的设计和实现过程。整个全文检索系统主要包括三个模块:索引模型构建模块、索引存储结构的设计与实现模块与系统检索模型构建模块,并详细介绍了每个模块的设计思路和实现细节。整个系统主要包括文档集合来源、文档预处理、正排索引构建、分块式倒排索引构建、词典文件的结构设计、索引文件的结构设计、缓冲区的管理机制、基于B+树的倒排索引的实现、基于线性散列的倒排索引的实现、系统检索模型构建等内容。 最后,本文对两种不同索引结构的倒排索引模型从时间复杂度和空间复杂度两个方面进行了比较测试研究。具体是对检索效率、索引维护效率以及两种索引模式下磁盘占用体积等方面进行了对比实验,并对实验结果进行了分析。实验结果表明,查询每万条数据耗时线性散列比B+树索引快74.21%,插入每万条数据耗时线性散列为B+树索引的2.44倍,删除每万条数据耗时线性散列为B+树索引的83.52%,线性散列索引文件大小为B+树索引文件大小的109.56%。由测试结果可知,B+树索引具有较快的索引构建和更新速度,而线性散列索引则具有较高的磁盘空间占用率和较好的查询性能。
【图文】:
大数据的浪潮正席卷全世界,给技术和商业带来巨大的变化。随着网、下一代互联网和下一代移动通信技术为代表的新一轮信息技术变革的信息产业竞争将逐渐从“软件为王”转向“数据为王”[1],这意味着大数,这是信息化的一个崭新发展方向。全球知名咨询公司麦肯锡最早提出大来,进入 2012 年以后,大数据一词越来越多的被提及。2012 年 3 月,美宣布开展“大数据的研究和发展计划”[2],该计划涉及到 6 个联邦部门的承诺投资超过两亿美元。这标志着大数据在美国的发展已经被提升至国家奥巴马政府甚至将大数据定义为“未来的石油”。由此可见,大数据已成建设重大突破的前沿,也为信息化展现新的前景。根据第 33 次中国互联网发展状况统计报告[3](以下简称统计)描述,截止,中国网站数量为 320 万,见下图:
图 1-2 中国网页数量及增长率数据来源:中国互联网络发展状况统计调查综上所述,我国互联网网站为我国网民提供了数量极为庞大的网络信息资统计网站新闻和搜索引擎分别是我国网民使用规模排名第二、第三的互联网第一的是即时通讯软件 QQ),由此可知,互联网的出现及迅速普及,深刻地了人们的生活方式,并从根本上改变了人们获取信息的方式,网站成为人们息的主要来源之一。但也同时带来了一个极具挑战的现实问题,那就是面对信息量,人们如何快速有效地从这些海量信息中获取自己想要的信息。搜索这种应用背景下被催生出来的一大新兴技术,从广义上讲,,搜索引擎实际上索引擎,其实质是全文索引,它将自然语言处理与海量内容管理技术融合在页、文本、电子文档、视频和图像等非结构化信息提供强大的管理功能,从解决上述问题,让人们能真正利用好互联网的这种海量信息特性。
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:G252.7
本文编号:2706538
【图文】:
大数据的浪潮正席卷全世界,给技术和商业带来巨大的变化。随着网、下一代互联网和下一代移动通信技术为代表的新一轮信息技术变革的信息产业竞争将逐渐从“软件为王”转向“数据为王”[1],这意味着大数,这是信息化的一个崭新发展方向。全球知名咨询公司麦肯锡最早提出大来,进入 2012 年以后,大数据一词越来越多的被提及。2012 年 3 月,美宣布开展“大数据的研究和发展计划”[2],该计划涉及到 6 个联邦部门的承诺投资超过两亿美元。这标志着大数据在美国的发展已经被提升至国家奥巴马政府甚至将大数据定义为“未来的石油”。由此可见,大数据已成建设重大突破的前沿,也为信息化展现新的前景。根据第 33 次中国互联网发展状况统计报告[3](以下简称统计)描述,截止,中国网站数量为 320 万,见下图:
图 1-2 中国网页数量及增长率数据来源:中国互联网络发展状况统计调查综上所述,我国互联网网站为我国网民提供了数量极为庞大的网络信息资统计网站新闻和搜索引擎分别是我国网民使用规模排名第二、第三的互联网第一的是即时通讯软件 QQ),由此可知,互联网的出现及迅速普及,深刻地了人们的生活方式,并从根本上改变了人们获取信息的方式,网站成为人们息的主要来源之一。但也同时带来了一个极具挑战的现实问题,那就是面对信息量,人们如何快速有效地从这些海量信息中获取自己想要的信息。搜索这种应用背景下被催生出来的一大新兴技术,从广义上讲,,搜索引擎实际上索引擎,其实质是全文索引,它将自然语言处理与海量内容管理技术融合在页、文本、电子文档、视频和图像等非结构化信息提供强大的管理功能,从解决上述问题,让人们能真正利用好互联网的这种海量信息特性。
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:G252.7
【参考文献】
相关期刊论文 前10条
1 王英强;石永生;;B+树在数据库索引中的应用[J];长江大学学报(自然科学版)理工卷;2008年01期
2 赵雄峰;;一种高效检索XML文档的倒排索引技术[J];电脑知识与技术;2010年30期
3 赵鹏;一种基于压缩的全文本数据库倒排索引方法[J];黑龙江大学自然科学学报;2005年03期
4 曾海泉,刘永丹,宋扬,胡运发;基于互关联后继树的多时间序列关联模式挖掘[J];计算机研究与发展;2003年07期
5 王冬;左万利;赫枫龄;彭涛;张长利;;一种增量倒排索引结构的设计与实现[J];吉林大学学报(理学版);2007年06期
6 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期
7 申展;江宝林;陈yN;唐磊;胡运发;;全文检索模型综述[J];计算机科学;2004年05期
8 苏潭英;郭宪勇;金鑫;;一种基于Lucene的中文全文检索系统[J];计算机工程;2007年23期
9 陈华辉;一个中英文全文搜索引擎的设计与实现[J];计算机应用研究;2001年03期
10 郎杨琴;孔丽华;;美国发布“大数据的研究和发展计划”[J];科研信息化技术与应用;2012年02期
相关博士学位论文 前1条
1 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年
本文编号:2706538
本文链接:https://www.wllwen.com/tushudanganlunwen/2706538.html
教材专著