基于热点话题发现的BBS检索排序策略研究
本文关键词:梦想的陨落:特殊学校聋生教育需求研究,由笔耕文化传播整理发布。
《北京邮电大学》 2013年
基于热点话题发现的BBS检索排序策略研究
曲克伟
【摘要】:搜索引擎是网民在Web上的海量数据中查找信息的重要工具。目前,搜索引擎应用正朝向多样化趋势发展。信息检索相关技术的成熟,使得开发多样性搜索引擎应用成为可能。 论坛(BBS)作为一种互联网工具,是网络信息的载体,也是新闻或者信息的发布媒介,可以迅速地将某一“突发事件”发布在网上,随着参与“讨论”的网民的数量增加,有些会逐渐演变成为“热点话题”。 目前,大多数BBS网站的“搜索”功能都比较简单,一般仅是以分版块、基于主题关键字的搜索方式,查询结果排序方式是单一的按时间排序,无法给用户以高质量的查询服务。同时,通用搜索引擎对于BBS检索服务的表现也很一般。 本课题通过打造一种搭建于BBS上的轻量级搜索引擎,拟将舆情分析领域的热点话题发现技术,引用到搜索引擎的检索排序策略上,将文章的“热度”,作为名次排序的一项重要指标考虑进来,研究并实现一种基于热点话题发现的检索排序方法。 首先,基于Lucene全文检索技术,快速搭建一个BBS检索系统,在此过程中研究并实现BBS网页信息采集与抽取、索引文件的创建、查询处理等搜索引擎关键技术,以及基于JSP/Servlet技术的搜索引擎用户界面设计 然后,采用凝聚层次聚类算法,对BBS上的话题进行识别。选取帖子的主题影响力、关注度(回帖数)、回帖贡献率、活跃程度作为话题热度评定的影响因子。经过多次实验,确定每一个影响因子的权重大小。对帖子的热度进行打分,并根据热度排序的效果,来调整影响因子的权重大小。 最后,本文在Lucene的排序机制的基础上,引入了文章(帖子)的热度值参与计算,实现一种新的排序方式。基本思想是:最终查询匹配文章(帖子)的得分,由文章与查询条件的相似度得分和文章热度值得乘积决定。
【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前3条
1 卢珺珈;张宏莉;张玥;;基于BBS的热点话题发现与态势预测技术的研究[J];智能计算机与应用;2012年02期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
中国硕士学位论文全文数据库 前5条
1 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
2 刘晓东;话题检测与跟踪系统的构建[D];北京邮电大学;2011年
3 张柱山;基于聚类分析的网络论坛热点话题检测[D];哈尔滨工业大学;2010年
4 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年
5 郑栋辉;基于演化理论的BBS热点话题发现[D];上海交通大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 吴昊;耿焕同;吴祥;;一种基于聚类分析的BBS主题发现算法研究[J];安徽师范大学学报(自然科学版);2009年01期
2 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
3 丁伟;谢彦峰;张忠林;;一种基于用户兴趣的搜索引擎输入信息处理方法[J];电脑与信息技术;2008年05期
4 吴昊;耿焕同;;基于潜在语义分析的BBS主题发现算法研究[J];电脑知识与技术;2008年29期
5 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
6 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期
7 徐周昶;章美仁;;垂直搜索引擎系统的架构研究[J];福建电脑;2011年11期
8 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
9 陈学昌;韩佳珍;魏桂英;;话题识别与跟踪技术发展研究[J];中国管理信息化;2011年09期
10 乔东枝;;新一代搜索引擎的智能化特征及技术进展[J];高校图书馆工作;2007年04期
中国重要会议论文全文数据库 前3条
1 李燕军;路斌;杨建武;;话题检测与追踪技术及其信息安全中的应用[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
2 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
3 耿焕同;吴祥;毕硕本;;基于潜在语义分析的BBS主题发现算法研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 杨运强;梦想的陨落:特殊学校聋生教育需求研究[D];华东师范大学;2013年
3 吴林静;基于语义场模型的学科资源聚类及应用研究[D];华中师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
3 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
4 阿圆;高校校园网论坛热点话题发现系统的研究与实现[D];昆明理工大学;2009年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
7 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
8 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
9 兰凯梅;BBS热点话题发现与监控系统[D];北京交通大学;2011年
10 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 石矛;方勇;曾祥平;王长辉;;IDM模型分析及其影响力改进算法[J];成都信息工程学院学报;2008年01期
3 陈挺;刘嘉勇;夏天;范刚;;基于平板型Web论坛的信息抽取研究[J];成都信息工程学院学报;2009年01期
4 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
5 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
6 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
7 刘青宝;侯东风;邓苏;张维明;;基于相对密度的增量式聚类算法[J];国防科技大学学报;2006年05期
8 伍建军;康耀红;;文本分类中特征降维方式的研究[J];海南大学学报(自然科学版);2007年01期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
中国硕士学位论文全文数据库 前10条
1 胡红霞;Web敏感页面发现技术研究[D];中国人民解放军信息工程大学;2002年
2 肖立英;基于INTERNET的用户个性化兴趣模型的研究[D];中南大学;2003年
3 倪国元;基于模糊聚类的增量式挖掘算法研究[D];华中科技大学;2004年
4 李魁;大规模Web论坛采集技术研究[D];中国科学院研究生院(计算技术研究所);2006年
5 陈峰;基于聚类的增量数据挖掘研究[D];大连海事大学;2007年
6 周旭;BBS热点分析系统研究[D];北京交通大学;2007年
7 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年
8 林丽;基于语义距离的文本聚类算法研究[D];厦门大学;2007年
9 王旭东;基于Web的信息抽取技术研究[D];西南交通大学;2008年
10 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 ;中国科技期刊检索排序——地球物理·地球化学类[J];物探与化探;1999年01期
2 刘海波 ,顾鑫,张国印;基于Telnet协议的中文BBS搜索引擎[J];微型机与应用;2002年04期
3 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
4 ;关键词搜索[J];每周电脑报;2000年38期
5 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
6 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
7 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
8 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
9 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
10 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;[N];财经时报;2007年
2 周文林;[N];经济参考报;2007年
3 惠正一;[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年
5 陈珊;[N];人民邮电;2005年
6 朱伟;[N];文汇报;2005年
7 赵法忠;[N];中国经营报;2005年
8 商报记者 吴辰光;[N];北京现代商报;2006年
9 金朝力;[N];北京商报;2006年
10 元元;[N];证券日报;2006年
中国博士学位论文全文数据库 前10条
1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 曲克伟;基于热点话题发现的BBS检索排序策略研究[D];北京邮电大学;2013年
2 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
4 周旭;BBS热点分析系统研究[D];北京交通大学;2007年
5 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
6 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
7 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
8 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
9 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
10 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
本文关键词:梦想的陨落:特殊学校聋生教育需求研究,,由笔耕文化传播整理发布。
本文编号:226821
本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/226821.html