基于Kademlia的FTP搜索引擎索引技术的研究
发布时间:2018-04-03 08:22
本文选题:P2P 切入点:FTP搜索引擎 出处:《西华大学》2013年硕士论文
【摘要】:近年来,由于互联网资源的逐渐多样化与分布式存储,基于P2P技术的分布式FTP搜索引擎已成为FTP资源搜索的研究热点,其中,索引技术一直是提高FTP检索效率的关键。针对FTP资源检索对象的特点以及对等网络中的Kademlia模型存在的问题,本文提出了一种基于包含地理位置信息的Kademlia模型的分布式双字母倒排索引算法(a DistributedDouble-letters Inverted Indexing AlgorithmBased on a Containing Geographical Location Information Kademlia Model,简称为DGKAD)。为了提高资源检索效率,在DGKAD索引算法中,节点ID信息加入了节点的物理位置信息,从而改善了Kademlia层叠网(overlay network)逻辑结构和物理结构不匹配的问题,提高了网络通信效率,并且鉴于检索对象是字符长度较短的文件名,与基于标准Kademlia模型的DHT倒排索引算法(a DHTInverted Indexing AlgorithmBased on a Standard KademliaModel Based简称为DSKAD)相比,使用DGKAD索引算法可以避免分词,并提高了检索结果的查全率和准确率。 最后,本文通过对DGKAD索引算法进行模拟仿真,结果表明,在FTP检索资源所需的逻辑路径跳数、检索查全率以及查准率各个方面,DGKAD索引算法具有消耗网络带宽少,资源定位速度快,查全率和查准率较高等方面的优点。
[Abstract]:In recent years, due to the gradual diversification and distributed storage of Internet resources, the distributed FTP search engine based on P2P technology has become the research hotspot of FTP resource search. Among them, indexing technology has been the key to improve the efficiency of FTP retrieval.According to the characteristics of FTP resource retrieval object and the problems of Kademlia model in peer-to-peer network,In this paper, a distributed DistributedDouble-letters Inverted Indexing AlgorithmBased on a Containing Geographical Location Information Kademlia model based on Kademlia model with geographic location information is proposed.In order to improve the efficiency of resource retrieval, the node ID information is added to the physical location information of the node in the DGKAD index algorithm, which improves the mismatch between the logical structure and the physical structure of the Kademlia overlay network, and improves the communication efficiency of the network.In view of the fact that the retrieval object is a file name with shorter character length, compared with a DHTInverted Indexing AlgorithmBased on a Standard KademliaModel Based (DSKAD) algorithm based on standard Kademlia model, the DGKAD index algorithm can avoid word segmentation.The recall and accuracy of retrieval results are improved.Finally, this paper simulates the DGKAD indexing algorithm, and the results show that the DGKAD index algorithm consumes less network bandwidth in all aspects of logical path hops, retrieval recall and precision of FTP retrieval resources.High speed of resource location, high recall rate and high precision rate.
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
中国期刊全文数据库 前10条
1 任超;李战怀;张英;;异构P2P网络的分布式查询协议[J];电子科技大学学报;2009年01期
2 陈刚;吴国新;杨望;;G-Chord:一种基于Chord的路由改进算法[J];东南大学学报(自然科学版);2007年01期
3 周皓;何克右;邵红梅;;基于Kademlia的P2P搜索技术的研究[J];电脑知识与技术;2009年01期
4 王震;;优化型Kademlia的设计研究[J];电脑知识与技术;2011年32期
5 吴建源;;基于BP神经网络的中文分词算法研究[J];广东培正学院学报;2011年04期
6 赵娟娟;;基于区域划分的对等网Kademali模型的改进[J];硅谷;2011年03期
7 潘家英;唐晓年;劳有兰;;基于P2P技术的校园网络应用研究[J];桂林电子科技大学学报;2008年06期
8 易清亮;刘克剑;蔡祖恋;;基于P2P技术的大型分布式FTP搜索引擎研究[J];广西师范大学学报(自然科学版);2010年01期
9 陈华,王继民,韩近强,谢欣;互联网上FTP文件的分布特征及启示[J];计算机工程与应用;2004年01期
10 吴炜;苏永红;李瑞轩;卢正鼎;;基于DHT的分布式索引技术研究与实现[J];计算机科学;2010年02期
,本文编号:1704386
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1704386.html