税务垂直搜索引擎及改进PageRank算法的研究与实现
发布时间:2021-06-01 20:25
税务领域业务背景复杂,办税系统层级较深不便记忆和查找、信息政策多样导致信息检索不便;现有通用搜索引擎搜索结果数量多、查准率低、权威性不足,且存在竞价排名和网页作弊的现象;网页排序算法PageRank存在主题漂移、偏重旧网页和权威性不足的问题,且由于只对链接打分,不能对网页内容做出评价。针对以上问题提出一种基于改进PageRank算法的税务垂直搜索引擎。目标是提供具有主题性和权威性的税务搜索,在准确理解用户搜索意图的基础上实现精准查询,提供方便快捷的办税模块入口以及信息检索功能。本文的主要工作包括:(1)研究与改进网页排序算法。研究PageRank和HITS算法的原理,比较两者的优势与不足后选择PageRank算法作为基础,在三方面进行了改进:针对网站权威性不足引入权威度因子;针对新网页的评分浮不上来的特征融入时间评估因子;针对主题漂移问题融入了基于空间向量模型的网页内容相关度计算方法。实验表明改进算法能有效改善主题漂移问题、提升网页新鲜度和权威性。(2)中文分词的研究与实现。综合考虑编程语言、集成难度、功能丰富性、词库是否可扩展等方面后,选取Ictclas中文分词器辅助网页内容以及搜索...
【文章来源】:上海市计算技术研究所上海市
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 垂直搜索引擎研究现状
1.3 论文研究内容
1.4 论文结构安排
1.5 本章小结
2 搜索引擎关键技术研究
2.1 搜索引擎概念及原理
2.1.1 垂直搜索引擎与通用搜索引擎的区别
2.1.2 垂直搜索引擎工作原理
2.2 爬虫的原理
2.2.1 通用网络爬虫与主题爬虫的区别
2.2.2 资源类型
2.2.3 抓取策略
2.3 中文分词
2.3.1 分词策略
2.3.2 分词工具对比
2.4 Nutch概述
2.5 Solr概述
2.6 本章小结
3 网页排序算法的研究与改进
3.1 PageRank算法
3.1.1 算法解析
3.1.2 收敛性实验
3.1.3 算法评价
3.2 HITS算法
3.2.1 算法解析
3.2.2 算法评价
3.3 改进算法——VSPR
3.3.1 基础算法选取
3.3.2 网站权威度改进
3.3.3 网站新鲜度改进
3.3.4 主题相关度改进
3.4 本章小结
4 面向税务的垂直搜索引擎的设计与实现
4.1 需求分析
4.2 架构设计
4.3 税务垂直搜索引擎的实现
4.3.1 信息抓取模块
4.3.2 中文分词模块
4.3.3 用户搜索模块
4.4 算法验证
4.4.1 实验环境
4.4.2 实验步骤及结果
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]网络爬虫技术原理[J]. Kevin. 计算机与网络. 2018(10)
[2]开源搜索引擎Elasticsearch和Solr对比和分析[J]. 魏涛,孟方园,袁平,殷锋. 现代计算机(专业版). 2018(06)
[3]微博环境下基于用户行为与主题相似度的改进PageRank算法[J]. 朱颢东,丁温雪,杨立志,冯嘉美. 计算机工程. 2017(05)
[4]网络爬虫技术的研究与实现[J]. 朱莉娜,李泽平. 黑龙江科技信息. 2017(10)
[5]PageRank算法改进研究[J]. 邱苓芸,王铭,赵卫东. 软件导刊. 2017(02)
[6]基于用户反馈与链接关系的网页排序改进算法[J]. 王冲,纪仙慧. 计算机工程与设计. 2016(05)
[7]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[8]基于TF-IDF改进算法的聚焦主题网络爬虫[J]. 王景中,邱铜相. 计算机应用. 2015(10)
[9]网络舆情监控系统中主题网络爬虫的研究与实现[J]. 方星星,鲁磊纪,徐洋. 舰船电子工程. 2014(09)
[10]浅析垂直搜索引擎的应用[J]. 徐玲玉,何利力. 计算机光盘软件与应用. 2014(10)
博士论文
[1]基于用户行为的信任感知推荐方法研究[D]. 张亚楠.哈尔滨工程大学 2014
硕士论文
[1]基于Nutch的搜索引擎排序算法的研究与实现[D]. 李青淋.东南大学 2016
[2]面向数码商品垂直搜索引擎原型系统的设计与实现[D]. 杨静娴.西南交通大学 2014
[3]垃圾网页过滤算法及其在搜索引擎中的应用[D]. 何涛.湖南大学 2013
[4]面向微博的消费意图识别[D]. 焦扬.哈尔滨工业大学 2013
本文编号:3210092
【文章来源】:上海市计算技术研究所上海市
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 垂直搜索引擎研究现状
1.3 论文研究内容
1.4 论文结构安排
1.5 本章小结
2 搜索引擎关键技术研究
2.1 搜索引擎概念及原理
2.1.1 垂直搜索引擎与通用搜索引擎的区别
2.1.2 垂直搜索引擎工作原理
2.2 爬虫的原理
2.2.1 通用网络爬虫与主题爬虫的区别
2.2.2 资源类型
2.2.3 抓取策略
2.3 中文分词
2.3.1 分词策略
2.3.2 分词工具对比
2.4 Nutch概述
2.5 Solr概述
2.6 本章小结
3 网页排序算法的研究与改进
3.1 PageRank算法
3.1.1 算法解析
3.1.2 收敛性实验
3.1.3 算法评价
3.2 HITS算法
3.2.1 算法解析
3.2.2 算法评价
3.3 改进算法——VSPR
3.3.1 基础算法选取
3.3.2 网站权威度改进
3.3.3 网站新鲜度改进
3.3.4 主题相关度改进
3.4 本章小结
4 面向税务的垂直搜索引擎的设计与实现
4.1 需求分析
4.2 架构设计
4.3 税务垂直搜索引擎的实现
4.3.1 信息抓取模块
4.3.2 中文分词模块
4.3.3 用户搜索模块
4.4 算法验证
4.4.1 实验环境
4.4.2 实验步骤及结果
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]网络爬虫技术原理[J]. Kevin. 计算机与网络. 2018(10)
[2]开源搜索引擎Elasticsearch和Solr对比和分析[J]. 魏涛,孟方园,袁平,殷锋. 现代计算机(专业版). 2018(06)
[3]微博环境下基于用户行为与主题相似度的改进PageRank算法[J]. 朱颢东,丁温雪,杨立志,冯嘉美. 计算机工程. 2017(05)
[4]网络爬虫技术的研究与实现[J]. 朱莉娜,李泽平. 黑龙江科技信息. 2017(10)
[5]PageRank算法改进研究[J]. 邱苓芸,王铭,赵卫东. 软件导刊. 2017(02)
[6]基于用户反馈与链接关系的网页排序改进算法[J]. 王冲,纪仙慧. 计算机工程与设计. 2016(05)
[7]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧. 计算机科学. 2016(03)
[8]基于TF-IDF改进算法的聚焦主题网络爬虫[J]. 王景中,邱铜相. 计算机应用. 2015(10)
[9]网络舆情监控系统中主题网络爬虫的研究与实现[J]. 方星星,鲁磊纪,徐洋. 舰船电子工程. 2014(09)
[10]浅析垂直搜索引擎的应用[J]. 徐玲玉,何利力. 计算机光盘软件与应用. 2014(10)
博士论文
[1]基于用户行为的信任感知推荐方法研究[D]. 张亚楠.哈尔滨工程大学 2014
硕士论文
[1]基于Nutch的搜索引擎排序算法的研究与实现[D]. 李青淋.东南大学 2016
[2]面向数码商品垂直搜索引擎原型系统的设计与实现[D]. 杨静娴.西南交通大学 2014
[3]垃圾网页过滤算法及其在搜索引擎中的应用[D]. 何涛.湖南大学 2013
[4]面向微博的消费意图识别[D]. 焦扬.哈尔滨工业大学 2013
本文编号:3210092
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3210092.html
最近更新
教材专著