当前位置:主页 > 科技论文 > 搜索引擎论文 >

用户可定制桌面搜索系统的设计与实现

发布时间:2017-09-08 12:34

  本文关键词:用户可定制桌面搜索系统的设计与实现


  更多相关文章: 主题爬行 个性化搜索 自适应主题爬行 用户可定制


【摘要】:随着互联网信息的爆炸式增长,用户的个性化需求也越来越高。在实际应用场景下,,用户通常希望在特定领域进行定制化的搜索。主题爬虫是定制化搜索的基础,传统的主题爬虫方法需要对应主题训练集的支持,如果缺乏相应主题训练集则无法进行工作。因此,传统的垂直搜索引擎只能提供一个或少数主题的搜索服务,无法完全满足用户的个性化需求 本论文的研究工作针对上述问题展开,主要贡献如下: 提出了面向自适应主题爬行的网页解析技术。自适应主题爬行需要能够准确地解析出一个网页的主题文本,已有的方法对topic类型网页的效果较好,但是通用性不高,而且没有考虑如何提取hub类型网页的主题文本。论文中的提出的方法是一个通用的解析算法(EATI),通过该算法在主题爬行中的表现证明了算法的有效性。 提出了自适应主题爬行策略。该策略不依赖主题训练集,通过用户提供的一组相同主题的初始链接完成主题建模和爬行,在相同初始链接的情况下,达到了和使用主题训练集的最佳优先策略水平相当的收获率。 设计并实现了用户可定制桌面搜索系统。该系统向用户提供一个可以灵活定制的爬虫,用户根据需求对爬虫进行简单配置后即可完成定制化的爬行。系统在后台自动完成下载网页的索引,并通过web向用户提供检索服务。
【关键词】:主题爬行 个性化搜索 自适应主题爬行 用户可定制
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • abstract4-7
  • 第1章 引言7-10
  • 1.1 选题背景和意义7
  • 1.2 论文工作的主要贡献7-8
  • 1.3 论文的结构安排8-10
  • 第2章 背景知识及相关工作介绍10-17
  • 2.1 背景知识10-14
  • 2.1.1 搜索引擎简介10
  • 2.1.2 主题爬虫技术介绍10-12
  • 2.1.3 倒排索引12-13
  • 2.1.4 pagerank13-14
  • 2.2 相关工作14-16
  • 2.2.1 主题爬行相关研究14-15
  • 2.2.2 现有开源软件15-16
  • 2.3 本章小结16-17
  • 第3章 面向自适应主题爬行的网页解析技术17-27
  • 3.1 中文网页编码检测算法17-20
  • 3.1.1 相关工作分析17
  • 3.1.2 基于字节流的中文编码检测算法17-19
  • 3.1.3 实验19-20
  • 3.2 网页提取算法20-26
  • 3.2.1 相关工作分析20
  • 3.2.2 带网页类型检测的提取算法20-24
  • 3.2.3 实验24-26
  • 3.3 本章小结26-27
  • 第4章 自适应主题爬行策略研究27-35
  • 4.1 相关工作分析27-28
  • 4.2 自适应主题模型28-31
  • 4.2.1 主题建模28-29
  • 4.2.2 模型修正29-30
  • 4.2.3 特征词和特征权重30-31
  • 4.2.4 url 排序策略31
  • 4.3 实验31-34
  • 4.3.1 基准算法31-32
  • 4.3.2 评价体系32
  • 4.3.3 实验相关说明32-33
  • 4.3.4 实验结果33-34
  • 4.4 本章小结34-35
  • 第5章 系统设计与实现35-45
  • 5.1 业务设计35-37
  • 5.1.1 总体设计35
  • 5.1.2 工作流程设计35-37
  • 5.2 系统设计37-44
  • 5.2.1 系统框架37
  • 5.2.2 各模块详细设计37-42
  • 5.2.3 系统界面42-44
  • 5.3 本章小结44-45
  • 第6章 结论与展望45-47
  • 6.1 论文完成的工作和贡献45-46
  • 6.2 下一步工作展望46-47
  • 参考文献47-50
  • 致谢50-52
  • 个人简历、在学期间发表的学术论文与研究成果52

【参考文献】

中国期刊全文数据库 前2条

1 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期

2 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期



本文编号:814064

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/814064.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae30a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com