用户可定制桌面搜索系统的设计与实现
发布时间:2017-09-08 12:34
本文关键词:用户可定制桌面搜索系统的设计与实现
更多相关文章: 主题爬行 个性化搜索 自适应主题爬行 用户可定制
【摘要】:随着互联网信息的爆炸式增长,用户的个性化需求也越来越高。在实际应用场景下,,用户通常希望在特定领域进行定制化的搜索。主题爬虫是定制化搜索的基础,传统的主题爬虫方法需要对应主题训练集的支持,如果缺乏相应主题训练集则无法进行工作。因此,传统的垂直搜索引擎只能提供一个或少数主题的搜索服务,无法完全满足用户的个性化需求 本论文的研究工作针对上述问题展开,主要贡献如下: 提出了面向自适应主题爬行的网页解析技术。自适应主题爬行需要能够准确地解析出一个网页的主题文本,已有的方法对topic类型网页的效果较好,但是通用性不高,而且没有考虑如何提取hub类型网页的主题文本。论文中的提出的方法是一个通用的解析算法(EATI),通过该算法在主题爬行中的表现证明了算法的有效性。 提出了自适应主题爬行策略。该策略不依赖主题训练集,通过用户提供的一组相同主题的初始链接完成主题建模和爬行,在相同初始链接的情况下,达到了和使用主题训练集的最佳优先策略水平相当的收获率。 设计并实现了用户可定制桌面搜索系统。该系统向用户提供一个可以灵活定制的爬虫,用户根据需求对爬虫进行简单配置后即可完成定制化的爬行。系统在后台自动完成下载网页的索引,并通过web向用户提供检索服务。
【关键词】:主题爬行 个性化搜索 自适应主题爬行 用户可定制
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要3-4
- abstract4-7
- 第1章 引言7-10
- 1.1 选题背景和意义7
- 1.2 论文工作的主要贡献7-8
- 1.3 论文的结构安排8-10
- 第2章 背景知识及相关工作介绍10-17
- 2.1 背景知识10-14
- 2.1.1 搜索引擎简介10
- 2.1.2 主题爬虫技术介绍10-12
- 2.1.3 倒排索引12-13
- 2.1.4 pagerank13-14
- 2.2 相关工作14-16
- 2.2.1 主题爬行相关研究14-15
- 2.2.2 现有开源软件15-16
- 2.3 本章小结16-17
- 第3章 面向自适应主题爬行的网页解析技术17-27
- 3.1 中文网页编码检测算法17-20
- 3.1.1 相关工作分析17
- 3.1.2 基于字节流的中文编码检测算法17-19
- 3.1.3 实验19-20
- 3.2 网页提取算法20-26
- 3.2.1 相关工作分析20
- 3.2.2 带网页类型检测的提取算法20-24
- 3.2.3 实验24-26
- 3.3 本章小结26-27
- 第4章 自适应主题爬行策略研究27-35
- 4.1 相关工作分析27-28
- 4.2 自适应主题模型28-31
- 4.2.1 主题建模28-29
- 4.2.2 模型修正29-30
- 4.2.3 特征词和特征权重30-31
- 4.2.4 url 排序策略31
- 4.3 实验31-34
- 4.3.1 基准算法31-32
- 4.3.2 评价体系32
- 4.3.3 实验相关说明32-33
- 4.3.4 实验结果33-34
- 4.4 本章小结34-35
- 第5章 系统设计与实现35-45
- 5.1 业务设计35-37
- 5.1.1 总体设计35
- 5.1.2 工作流程设计35-37
- 5.2 系统设计37-44
- 5.2.1 系统框架37
- 5.2.2 各模块详细设计37-42
- 5.2.3 系统界面42-44
- 5.3 本章小结44-45
- 第6章 结论与展望45-47
- 6.1 论文完成的工作和贡献45-46
- 6.2 下一步工作展望46-47
- 参考文献47-50
- 致谢50-52
- 个人简历、在学期间发表的学术论文与研究成果52
【参考文献】
中国期刊全文数据库 前2条
1 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
2 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
本文编号:814064
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/814064.html