面向特定领域的新闻网页重排序算法研究
本文关键词:面向特定领域的新闻网页重排序算法研究
更多相关文章: 网页重排序 网页分类 领域向量模型 网页信息模型 搜索引擎
【摘要】:随着互联网中网页数量的增加、信息的爆炸,如何从海量数据中找到对用户最有价值的信息,成为了互联网中一个热门问题。在这样的背景下,搜索引擎技术应运而生,成为用户在互联网中搜索信息的重要渠道之一。然而,现有的通用搜索引擎存在主题漂移问题,即与用户查询关键词所属领域不相符的网页会排在结果列表的前列,这显然会减低用户的体验。为了解决通用搜索引擎的主题漂移问题,本文在观察和分析了大量网页新闻实例之后发现,属于相同领域的新闻网页往往包含类似的关键词。基于这个发现,本文探索了面向特定领域的新闻网页重排序算法,并展开了以下研究。(1)本文介绍了搜索引擎的相关背景和技术,重点包括:网络爬虫、网页分类和网页排序等;(2)本文研究了特定领域向量模型的构建方法,并且针对特定领域的新闻网页构建了一个分类器,用来对网页进行分类,通过实验表明,该分类器具有较高的分类精度;(3)本文提出了一种面向特定领域的新闻网页重排序算法-TSRR算法。TSRR算法设计了一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,针对新闻网页,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序。在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%;(4)本文设计实现了一个面向特定领域的新闻网页垂直搜索原型系统,并将本文设计的分类器和网页重排序算法集成到其中,介绍了系统的框架,实现以及用户界面。
【关键词】:网页重排序 网页分类 领域向量模型 网页信息模型 搜索引擎
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 致谢7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 绪论14-19
- 1.1 研究背景14-15
- 1.2 国内外研究现状15-17
- 1.3 本文主要工作17-18
- 1.4 论文组织结构18
- 1.5 本章小结18-19
- 第二章 相关技术体系概述19-45
- 2.1 网络爬虫技术19-25
- 2.2 索引技术25-29
- 2.2.1 倒排索引25-26
- 2.2.2 索引建立方法26-28
- 2.2.3 索引的更新策略28-29
- 2.3 网页分类技术29-36
- 2.3.1 网页分类定义29-31
- 2.3.2 网页分类中的相关特征31-35
- 2.3.3 网页特征的选择35-36
- 2.4 网页排序技术36-41
- 2.4.1 基于内容的网页排序算法37
- 2.4.2 基于链接分析的网页排序算法37-41
- 2.5 搜索引擎技术41-42
- 2.5.1 通用搜索引擎41
- 2.5.2 垂直搜索引擎41-42
- 2.5.3 元搜索引擎42
- 2.6 Lucene项目简介42-44
- 2.7 本章小结44-45
- 第三章 面向特定领域的新闻网页重排序算法研究45-63
- 3.1 领域向量模型的构建算法45-46
- 3.1.1 领域概述45
- 3.1.2 领域的表示方式45
- 3.1.3 领域向量模型的构建算法45-46
- 3.2 面向特定领域的新闻网页分类器46-53
- 3.2.1 网页信息模型的建立47
- 3.2.2 相似度度量方法47-48
- 3.2.3 网页分类特征提取48-50
- 3.2.4 分类实验及结果50-53
- 3.3 面向特定领域的新闻网页重排序算法53-62
- 3.3.1 面向特定领域的新闻网页重排序算法53-54
- 3.3.2 重排序实验及结果54-62
- 3.4 本章小结62-63
- 第四章 面向特定领域的新闻网页垂直搜索原型系统63-68
- 4.1 系统框架63-64
- 4.2 主要功能实现和系统展示64-67
- 4.3 本章小结67-68
- 第五章 总结与展望68-70
- 5.1 本文总结68-69
- 5.2 本文展望69-70
- 参考文献70-73
- 攻读硕士学位期间的学术活动及成果情况73-74
【相似文献】
中国期刊全文数据库 前10条
1 王鹏;张永奎;张彦;刘睿;;基于新闻网页主题要素的网页去重方法研究[J];计算机工程与应用;2007年28期
2 吴定明;赵东岩;;一种互联网新闻网页的采集分析方法[J];计算机工程与应用;2007年36期
3 唐俊;;复杂网络在新闻网页关键词提取中的应用[J];云南民族大学学报(自然科学版);2012年04期
4 邹永强;钟志农;;一种高效的新闻网页噪声过滤方法[J];微型机与应用;2011年16期
5 陈爽;李先国;陈福;李素;;一种抽取新闻网页结构化数据的方法[J];燕山大学学报;2007年06期
6 李振华;;新闻网页中的视觉识别系统设计[J];新闻爱好者;2010年19期
7 李润彤;;新闻网页的视觉识别系统设计[J];科技传播;2012年08期
8 葛晓玢;刘杰;崔健;;基于版权信息的新闻网页去重策略研究[J];电脑知识与技术;2012年26期
9 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
10 胡学钢;朱珠;吴共庆;;新闻网页自动识别的相关特征研究[J];广西师范大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前1条
1 王鹏;张永奎;;基于新闻网页主题要素的网页去重方法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国硕士学位论文全文数据库 前9条
1 吕婷婷;统计和规则相结合的新闻网页分类系统的设计与实现[D];电子科技大学;2011年
2 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年
3 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
4 潘澄;面向特定领域的新闻网页重排序算法研究[D];合肥工业大学;2015年
5 李星华;中英文新闻网页关键词抽取技术研究[D];合肥工业大学;2009年
6 毛新武;基于组合特征的中文新闻网页关键词提取研究[D];北京林业大学;2013年
7 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
8 侯小可;微博新闻话题的情感分析研究[D];华北电力大学;2013年
9 加羊吉;藏文新闻网页新词语调查研究[D];西北民族大学;2011年
,本文编号:692414
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/692414.html