基于DHT协议的搜索引擎
发布时间:2017-09-23 08:28
本文关键词:基于DHT协议的搜索引擎
【摘要】:对等网络(peer to peer P2P)技术广泛应用于互联网中,如基于DHT协议的BT下载软件(这其中有电驴、比特彗星、快播),基于P2P的视频点播系统(pps和uusee等)。P2P可简单定义为对等点之间通过直接交换信息从而达到共享计算机资源和服务的两种角色,以该技术构建的网络称为对等网。与有中心服务器的中央网络系统不同,对等网络的每个用户端既是一个节点,也有服务器的功能,任何一个节点无法直接找到其他节点,必须依靠其户群进行信息交流,即每个节点要维护自己的一段路由表,当其他的节点发出请求时,这个节点从路由表中通过一系列的算法找出与之最匹配的节点信息。 由于很多资源是通过论坛的形式发布,而论坛又设置有权限等问题,使普通用户无法获取资源,本文探索的是基于DHT协议的垂直搜索引擎,正是为了解决这一问题。程序会根据DHT协议模拟出协议四种最重要的请求,索引DHT网络中节点请求的hash值,并将hash信息保存下来,再通过BT协议下载种子,将种子解析成文本信息并保存到数据库中,建立索引,形成DHT搜索引擎,其中中文分词和全文搜索引擎的选择会在正文中详细说明。为了丰富搜索引擎搜索结果的多样性,还会将电驴、快播、百度影音的资源也加入到数据库中,其中电驴资源可以通过aMule开源程序抓取,而快播和百度影音资源可以通过定向爬虫程序抓取一些网站即可。
【关键词】:DHT Hash 垂直搜索
【学位授予单位】:湖北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-9
- 图目录9-10
- 表目录10-11
- 第1章 绪论11-13
- 1.1 研究背景和意义11
- 1.2 本文的主要工作11-12
- 1.3 本文的内容组织12-13
- 第2章 系统分析和设计13-15
- 2.1 系统分析13
- 2.2 系统设计13-15
- 第3章 DHT协议分析15-20
- 3.1 概述15
- 3.2 路由表15-16
- 3.3 BitTorrent协议扩展16
- 3.4 Torrent文件扩展16
- 3.5 KRPC协议16-17
- 3.6 DHT请求和回复17-20
- 3.6.1 ping17-18
- 3.6.2 find_node18
- 3.6.3 get_peers18-19
- 3.6.4 announce_peer19-20
- 第4章 DHT协议的编码实现20-27
- 4.1 编码选择20
- 4.2 编码20-27
- 4.2.1 如何进入DHT网络20
- 4.2.2 SocketServer介绍20-21
- 4.2.3 类的定义21-22
- 4.2.4 DHT节点的初始化22
- 4.2.5 ping的实现22-23
- 4.2.6 find_node实现23-24
- 4.2.7 get_peers的实现24-25
- 4.2.8 sendmessage的实现25
- 4.2.9 获取hash25-26
- 4.2.10 多线程获取hash26-27
- 第5章 Torrent文件获取与解析27-37
- 5.1 磁力链接的介绍27
- 5.2 由磁力链接获取torrent文件27-28
- 5.3 从缓存服务器下载torrent文件28-29
- 5.4 Torrent文件解析的实现29-34
- 5.4.1 Torrent文件的结构29-32
- 5.4.2 Torrent文件的解析的编码实现32-33
- 5.4.3 编码的处理33-34
- 5.4.4 一些问题的处理34
- 5.5 Torrent文件解析后入库34-37
- 5.5.1 字段的设计34-35
- 5.5.2 写入数据库35-36
- 5.5.3 多线程写入36-37
- 第6章 全文搜索引擎的建立与搜索37-53
- 6.1 索引的基础37-38
- 6.1.1 单词-文档矩阵37
- 6.1.2 倒排索引基本概念37-38
- 6.2 Windows32下Coreseek建立全文搜索引擎38-45
- 6.2.1 Coreseek的介绍38-39
- 6.2.2 安装Coreseek39-43
- 6.2.3 使用Coreseek搜索43-44
- 6.2.4 Coreseek增量索引44-45
- 6.3 centos32下Xunsearch做全文搜索引擎45-52
- 6.3.1 Xunsearch简介45
- 6.3.2 Xunsearch的安装和配置45-50
- 6.3.3 Xunsearch的搜索50-51
- 6.3.4 Xunsearch和Coreseek的比较51-52
- 6.4 MySql全文搜索52-53
- 第7章 电驴资源搜索53-57
- 7.1 eD2k网络53
- 7.2 eD2k链接的介绍53-54
- 7.3 eD2k链接的抓取54-57
- 结论57-58
- 参考文献58-60
- 致谢60
【参考文献】
中国期刊全文数据库 前3条
1 刘红梅;;脚本语言在数据采集系统中的应用研究[J];电子科技;2009年11期
2 姚炎炎;陈怀义;郑若忠;宁洪;;密码体制与分布式Web数据库的安全设计[J];计算机科学;2001年06期
3 宋芳;;P2P技术的研究与应用[J];湘潭师范学院学报(自然科学版);2009年04期
,本文编号:904231
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/904231.html