基于领域模型的网页搜索排序算法
本文关键词:基于领域模型的网页搜索排序算法
【摘要】:通用搜索引擎在检索过程中会出现查询结果与关键词所属领域无关的主题漂移现象.本文提出了面向特定领域的网页重排序算法—TSRR(Topic Sensitive Re-Ranking)算法,从一个新的视角对主题漂移问题加以解决.TSRR算法设计一种独立于网页排序的模型,用来表示领域,然后建立网页信息模型,在用户检索过程中结合领域向量模型和网页信息模型对网页搜索结果进行重排序.在爬取的特定领域的数据集上,以用户满意度和准确率为标准进行评估,实验结果表明,本文中提出的TSRR算法性能优异,比经典的基于Lucene的排序算法在用户满意度上平均提高17.3%,在准确率上平均提高41.9%.
【作者单位】: 合肥工业大学计算机与信息学院;
【基金】:国家高技术研究发展计划(863)(2012AA011005)
【分类号】:TP391.1;TP393.092
【正文快照】: 1引言 为80.3%,用户规模较2013年12月增长1783万人,增随着互联网技术的迅猛发展,网络成为人们获取 长率为3.6%.搜索引擎如何快速、高效、正确地给用信息的重要渠道,搜索引擎成为人们获取信息时使用 户返回所查询结果,成为目前搜索引擎所面临的最大最多的互联网工具之一.从最早
【参考文献】
中国期刊全文数据库 前6条
1 刘菁菁;林鸿飞;赵晶;;基于PageRank和锚文本的网页排序研究[J];计算机工程与应用;2007年10期
2 刘凯鹏;方滨兴;;一种基于社会性标注的网页排序算法[J];计算机学报;2010年06期
3 王冲;曹姗姗;;基于用户反馈与主题关联度的网页排序算法改进[J];计算机应用;2014年12期
4 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
5 张贤;周娅;;基于Lucene网页排序算法的改进[J];计算机系统应用;2009年02期
6 黄德才;戚华春;钱能;;基于主题相似度模型的TS-PageRank算法[J];小型微型计算机系统;2007年03期
【共引文献】
中国期刊全文数据库 前10条
1 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
2 叶琳莉;林嵩凯;;基于Web结构挖掘算法的网站构建[J];电脑知识与技术;2008年34期
3 王梅;;搜索引擎中的web链接算法研究与改进[J];电脑知识与技术;2009年24期
4 谭涛;;高效的动态脚本网页关联性挖掘算法研究[J];电脑知识与技术;2012年13期
5 李江;殷之明;;链接分析研究综述[J];大学图书馆学报;2008年02期
6 王艳辉,吴斌,王柏;电信社群网络静态几何性质分析研究[J];复杂系统与复杂性科学;2005年02期
7 段晓东;王存睿;刘向东;张庆灵;;基于网络权重的多社团网络结构划分算法[J];复杂系统与复杂性科学;2009年03期
8 谭丽华;董毅明;李林红;;互联网群体智能的涌现[J];管理学报;2010年12期
9 张黎烁;李鑫;徐猛;;基于PageRank的网页主题相关性算法研究[J];光盘技术;2008年12期
10 邱均平,张洋;网络信息计量学综述[J];高校图书馆工作;2005年01期
中国重要会议论文全文数据库 前5条
1 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 张志强;梁婷婷;谢晓芹;;一种基于用户标记的搜索结果排序算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 陈志刚;孟祥增;;多媒体教学资源主题搜索系统的设计与实现[A];全国计算机辅助教育学会“计算机辅助教育软件开发与应用”研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
4 邓小龙;基于复杂网络分析的新一代电信CRM关键技术研究[D];北京邮电大学;2011年
5 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 乐小虬;非结构化网络空间信息智能搜索与服务研究[D];中国科学院研究生院(遥感应用研究所);2006年
9 邓波;分布式序敏感查询处理关键技术研究[D];国防科学技术大学;2006年
10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
3 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
4 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
5 杨阳;复杂网络社团划分算法的研究与实现[D];西安电子科技大学;2010年
6 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年
7 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
8 吉飞;基于用户浏览行为的网络资源排序研究[D];大连海事大学;2011年
9 李莹;基于最大流与页面相似度值的Web结构挖掘研究[D];陕西师范大学;2011年
10 马丽;融入语义相似度的HITS算法研究及实现[D];南京理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
2 周晋;路海明;李衍达;;搜索引擎输入方式的研究[J];计算机科学;2002年08期
3 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期
4 方树峰;;基于用户反馈的PageRank改进算法[J];计算技术与自动化;2012年01期
5 刘雁,书方平;利用链接关系评价网络信息的可行性研究[J];情报学报;2002年04期
6 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
7 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
8 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
9 段淮川;胡平;;基于主题特征和时间因子的改进PageRank算法[J];计算机工程与设计;2010年04期
10 戚华春,黄德才,郑月锋;具有时间反馈的PageRank改进算法[J];浙江工业大学学报;2005年03期
【相似文献】
中国期刊全文数据库 前10条
1 朱建莉,刘宏强;常用排序算法综述[J];胜利油田师范专科学校学报;2002年04期
2 周海岩,郝保树;一种新的桶分配链接排序算法[J];太原师范专科学校学报;2002年01期
3 赵忠孝;基于概率分布的排序算法(1)[J];计算机工程与应用;2002年11期
4 赵忠孝;基于概率分布的排序算法(2)[J];计算机工程与应用;2002年12期
5 何文明;针对任意分布数据的高效分档混合排序算法[J];计算机工程与应用;2003年22期
6 尤志强,张大方;数据等概率分档排序算法有效性的定量研究[J];计算机学报;2003年01期
7 穆炯,蒲海波;对按位分段排序算法的研究[J];四川农业大学学报;2004年01期
8 李井润;一种基于统计的分段排序算法[J];微计算机应用;2004年03期
9 曹清录,王念平,张斌;合并排序算法的平均情形复杂性分析及其应用[J];计算机工程;2004年21期
10 余炳惠,王克刚;排序算法的选择及一些改进[J];安康师专学报;2004年04期
中国重要会议论文全文数据库 前10条
1 周晓方;金志权;;寻找最佳分布式排序算法[A];第九届全国数据库学术会议论文集(上)[C];1990年
2 张艳秋;李建中;;一种基于蛇型磁带的排序算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 刘春阳;叶君峰;母海龙;陆秋霞;陈沧;高莺;;一种商品标题主题词的重要性排序算法[A];第五届全国信息检索学术会议论文集[C];2009年
4 王少帅;汤庆新;姚路;;并行独立集排序算法的改进与实现[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
5 于芳;王大玲;于戈;陈冬玲;鲍玉斌;;面向用户的排序算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 闫泼;马军;陈竹敏;;面向主题的网页排序算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 吴志彬;陈义华;;ANP中超矩阵排序算法研究[A];2006中国控制与决策学术年会论文集[C];2006年
9 陈丛丛;石冰;陈健;;面向主题的查询相关网页排序算法[A];第三届中国智能计算大会论文集[C];2009年
10 齐曼;张珩;;实时视觉仿真中帧连贯性应用[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
中国重要报纸全文数据库 前1条
1 广东 黄陀;基本算法简介(三)[N];电脑报;2001年
中国博士学位论文全文数据库 前3条
1 赵立军;基于归并的高效排序算法的研究[D];中国科学院研究生院(计算技术研究所);1998年
2 崔筠;无向基因组的移位排序算法[D];山东大学;2006年
3 郝凡昌;有向基因组复合操作重组排序算法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 王靖;数据库管理系统中高能效排序算法[D];浙江工业大学;2012年
2 尹晓;基因组移位排序算法的改进和评测[D];山东大学;2006年
3 黄兴;比特位拆分索引排序算法研究[D];清华大学;2007年
4 Mushtaq AbdulMutalib Hasson;一种论文时间与引用兼顾的科研论文排序算法[D];华中科技大学;2012年
5 刘声田;基于第一降序小队翻转排序算法的设计与实现[D];山东大学;2006年
6 曹臻;基于粗糙集的粒度排序算法[D];上海海事大学;2007年
7 侯红梅;图像搜索重排序算法研究[D];山东大学;2014年
8 徐艳霞;面向数学搜索的排序算法研究[D];兰州大学;2012年
9 张建英;稀疏正则化最小二乘排序算法[D];湖北大学;2011年
10 廉洁;改进的内容分析排序算法在搜索引擎中的研究与应用[D];大连交通大学;2013年
,本文编号:1263582
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1263582.html