当前位置:主页 > 科技论文 > 软件论文 >

基于无锁结构的大容量数据高性能检索系统研究

发布时间:2019-02-11 09:41
【摘要】:处理器的发展趋势由高频转向多核,普通的桌面PC有望在2017年末2018年初达到24核心(或者16核32线程),主流服务器的CPU核心数也都达到12核以上。基于锁同步机制的大容量数据检索系统在各方面无法发挥多核CPU的优势,开发过程中经常容易引入非常严重的缺陷,增加了引起死锁和数据竞争等严重问题的风险。同时随着核数的增加性能出现严重下降,不具备可扩展性。近年来软件开发者开始对无锁(Lock Free)数据结构进行不断研究,使用CAS的细粒度同步原语的无锁数据结构能够摆脱死锁和数据竞争问题,更重要的是它对于多核是可扩展的。业界也有诸多基于无锁的数据结构库。将这类结构应用到检索系统中,将会对检索的性能产生显著提升。本文以对现有电商商品检索系统的改进为背景,以无锁数据结构相关技术为切入点,对大容量数据高性能检索系统的实现进行了研究。具体工作可以概括为以下几点:本文首先对高性能检索系统的现状和发展趋势进行了深入分析。研究了当前检索系统在数据结构使用上的现状和局限性,分析了各类数据结构在多核计算机系统场景下所面临的问题和挑战,阐述了研究无锁数据结构对检索系统带来的作用和意义。其次,研究了大容量数据高性能检索系统的总体技术。概括性的介绍了检索系统的各组成部分及其功能,以及使用到的主要的数据结构。重点分析了 RPC消息队列、正排检索和倒排检索。然后,对RPC消息队列、正排检索和倒排检索进行无锁化结构重新设计,确定了各数据结构方案,并进行了设计和性能测试。利用无锁CAS技术提出了新的无锁队列、受限的无等待跳跃列表和受限的无等待散列表结构,并与现有常用的有锁的各类方法进行了对比,并进行了工程实践,并最终将这些新的数据结构应用到大容量数据检索系统中去。最后在单机的工作条件下,对新旧两种检索系统在相同的条件下进行检索正确率和召回率测试,在保证检索系统的检索正确率以及召回率的前提下验证了新的检索系统的检索性能改善。
[Abstract]:The development trend of processors is from high frequency to multi-core. The average desktop PC is expected to reach 24 cores (or 16 cores and 32 threads) by the end of 2017 or early 2018, and the number of CPU cores of mainstream servers will reach more than 12 cores. The large capacity data retrieval system based on lock synchronization mechanism can not play the advantage of multi-core CPU in all aspects. It is often easy to introduce very serious defects in the development process, which increases the risk of serious problems such as deadlock and data competition. At the same time, with the increase of the number of kernels, the performance is seriously decreased, and it is not extensible. In recent years, software developers have begun to study the unlocked (Lock Free) data structure. Using the fine-grained synchronization primitive of CAS, the unlocked data structure can get rid of deadlock and data competition, and more importantly, it is extensible for multi-core. There are also many lock-free-based data structure libraries in the industry. Applying this kind of structure to retrieval system will greatly improve the performance of retrieval. In this paper, based on the improvement of the existing e-commerce commodity retrieval system and the related technology of unlocked data structure, the realization of the large capacity and high performance retrieval system is studied. The specific work can be summarized as follows: firstly, the present situation and development trend of high performance retrieval system are deeply analyzed in this paper. In this paper, the present situation and limitation of data structure in retrieval system are studied, and the problems and challenges of data structure in multi-core computer system are analyzed. The function and significance of studying unlocked data structure on retrieval system are expounded. Secondly, the overall technology of large-capacity high-performance data retrieval system is studied. The components and functions of the retrieval system and the main data structures used are introduced in this paper. The RPC message queue, forward retrieval and inverted retrieval are analyzed in detail. Then, the unlocked structure of RPC message queue, forward row retrieval and inverted retrieval are redesigned, each data structure scheme is determined, and the design and performance test are carried out. This paper presents a new unlocked queue, a constrained waiting hopping list and a restricted waiting free hash table structure by using the lock free CAS technology, and compares it with other commonly used lock methods, and carries out the engineering practice. Finally, these new data structures are applied to mass data retrieval system. Finally, under the working conditions of a single machine, the retrieval accuracy and recall rate of the new and old retrieval systems are tested under the same conditions. The performance improvement of the new retrieval system is verified under the premise of guaranteeing the retrieval accuracy and recall rate of the new retrieval system.
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 杨光复;;论年鉴的检索系统和信息开发[J];年鉴信息与研究;2000年02期

2 黄泽霖;;纵横交错,点面结合,全面构筑年鉴六大检索系统[J];年鉴信息与研究;2006年03期

3 李明;;中科院声学所推出基于哼唱旋律或口说歌词的歌曲检索系统[J];应用声学;2006年04期

4 ;国际常用六大著名检索系统[J];温州职业技术学院学报;2009年02期

5 ;国际常用六大著名检索系统[J];昆明冶金高等专科学校学报;2010年03期

6 李华;;浅析检索系统中错误数据的控制[J];黑龙江科技信息;2011年05期

7 臧国全;;后控词表检索系统研究[J];情报科学;1988年02期

8 本刊编辑部;《物理》已成为世界六大检索系统的“座上客”[J];物理;1991年07期

9 ;新华社建成并开放新闻资料检索系统[J];视听界;1992年06期

10 马文筠;图书馆公共检索系统初探[J];现代图书情报技术;2000年S2期

相关会议论文 前10条

1 杨光复;;论年鉴的检索系统和信息开发[A];创新与发展——云南省年鉴论文选(续集)[C];2006年

2 许洁萍;袁斌;刘怡;;音乐检索系统中用户哼唱旋律错误的研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

3 张刚;孙健;丁国栋;米嘉;王斌;;海量数据的索引与检索系统[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年

4 顾寄南;陈晓燕;;检索系统专业化和智能化的研究与实现[A];走中国特色农业机械化道路——中国农业机械学会2008年学术年会论文集(下册)[C];2008年

5 徐英进;王愈;蔡锐;蔡莲红;;一种基于“乐纹”的海量音乐检索系统[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

6 刘超彪;宋鸿陟;司国东;傅熠;;应用于移动学习的树木检索系统[A];第八届和谐人机环境联合学术会议(HHME2012)论文集CHCI[C];2012年

7 王宁;范志新;胡运发;;虚拟图书馆检索系统的设计与实现[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年

8 高鹏;梁家恩;王晓瑞;徐波;;一个面向海量视音频应用的快速关键音检索系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

10 张浩;黄厚宽;;基于OAI协议的统一检索系统研究与实现[A];首届中国CAE工程分析技术年会暨2005全国计算机辅助工程(CAE)技术与应用高级研讨会论文集[C];2005年

相关重要报纸文章 前9条

1 王津东 李会霞;南京市江宁区 法律法规检索系统推进工作信息化[N];中国社会报;2008年

2 杨申武;工程建设标准强制性条文检索系统即将开通运行[N];中国建设报;2012年

3 本报记者 汪建根;想不起歌名,你就哼一声[N];中国文化报;2011年

4 葛涛;人文社科期刊怎样进入国际权威领域[N];中华读书报;2003年

5 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年

6 柯文;找音乐?会哼几句就行[N];人民日报;2006年

7 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年

8 ;让法治细胞在网络上繁衍[N];人民法院报;2002年

9 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;实验与实用系统[N];计算机世界;2003年

相关博士学位论文 前2条

1 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年

2 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年

相关硕士学位论文 前10条

1 陈志敏;联邦检索系统的关键技术研究与实现[D];华南理工大学;2015年

2 周翔;基于E2LSH的音乐哼唱检索系统的研究[D];电子科技大学;2014年

3 吴莉莉;基于内容的多媒体哼唱检索系统软件研究与设计[D];电子科技大学;2014年

4 赵垠兰;基于xPlore的统一资源检索系统的设计与实现[D];南京大学;2014年

5 曹清然;电台音乐检索系统设计与实现[D];电子科技大学;2015年

6 高巍;异构数据联合检索系统的设计与实现[D];东北大学;2013年

7 魏宇嵩;基于Microsoft Azure的影片目录检索系统的设计与实现[D];西安电子科技大学;2015年

8 吴娟;基于数字指纹的音乐哼唱检索系统的设计与实现[D];湖南师范大学;2015年

9 颜培园;乐搜资源检索系统的设计与实现[D];山东大学;2015年

10 罗惠峰;基于Lucene的站内检索系统的设计与优化[D];浙江工业大学;2015年



本文编号:2419610

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2419610.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bfdc5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com