中文微博话题检测跟踪方法研究和系统设计
发布时间:2021-03-24 15:06
微博作为一种Web2.0信息时代的出类拔萃的新媒介,做为支持跨平台信息互动交流的多媒体平台,在近两年里迅速发展,逐渐成为普通民众分享个人信息、关注他人信息、获取实时信息的主要平台,也逐渐成为网络媒体的主要组成部分。其特点是信息数量庞大、分散、多样。为了能让用户实时了解微博中整体的话题走向,跟踪自己感兴趣的话题,本文进行中文微博话题数据获取方式,话题检测跟踪方法研究。通过采用适用于微博的网页信息采集技术一一基于时间控制广度优先采集,提高信息采集效率,保证信息采集覆盖率。对微博网站话题信息的自适应采集和信息抽取,模块化识别和规范化储存,提供质量较好的数据源。同时研究了基于微博API数据获取方式,并比较了基于网络爬虫数据获取方式和基于API微博数据获取方式两种方案在微博数据获取中性能的优劣。最后采用了中文处理技术进行文本处理,对获取的数据进行检测跟踪。在话题追踪过程中实时调整查询向量,并且通过网页关系、核心特征项和非核心特征项的调整有效过滤了噪声信息的引入,从而提高查询向量调整效果。最终实现了微博话题检测与热门话题跟踪。
【文章来源】:广东技术师范大学广东省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
微话题应用模块图
【参考文献】:
期刊论文
[1]微博热点话题检测系统的设计与实现[J]. 赵前东,叶猛. 电视技术. 2013(03)
[2]网络爬虫在网页信息提取中的应用研究[J]. 金涛. 现代计算机(专业版). 2012(01)
[3]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云. 清华大学学报(自然科学版). 2011(10)
[4]基于树比较的Web页面主题信息抽取[J]. 朱梦麟,李光耀,周毅敏. 微型机与应用. 2011(19)
[5]基于内容分析的中文BBS话题检测系统的设计与实现[J]. 赵艳红,聂哲. 计算机应用与软件. 2011(06)
[6]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[7]网络爬虫在Web信息搜索与数据挖掘中应用[J]. 杨定中,赵刚,王泰. 计算机工程与设计. 2009(24)
[8]Web信息采集技术研究与发展[J]. 庞景安. 情报科学. 2009(12)
[9]基于自动生成模板的Web信息抽取技术[J]. 张彦超,刘云,李勇,沈波. 北京交通大学学报. 2009(05)
[10]话题发现与追踪技术研究[J]. 张晓艳,王挺. 计算机科学与探索. 2009(04)
硕士论文
[1]微博客数据的获取与分析方法研究[D]. 田董涛.北京交通大学 2012
[2]中文微博客热点话题检测与跟踪技术研究[D]. 孙胜平.北京交通大学 2011
[3]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
[4]话题检测与跟踪算法的研究[D]. 张美珍.北京交通大学 2010
[5]基于话题检测与跟踪的话题搜索技术研究[D]. 袁吕.哈尔滨工业大学 2010
[6]新浪微博的发展研究[D]. 郑雅真.北京交通大学 2010
[7]话题检测研究[D]. 乐可欣.北京交通大学 2009
本文编号:3097935
【文章来源】:广东技术师范大学广东省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
微话题应用模块图
【参考文献】:
期刊论文
[1]微博热点话题检测系统的设计与实现[J]. 赵前东,叶猛. 电视技术. 2013(03)
[2]网络爬虫在网页信息提取中的应用研究[J]. 金涛. 现代计算机(专业版). 2012(01)
[3]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云. 清华大学学报(自然科学版). 2011(10)
[4]基于树比较的Web页面主题信息抽取[J]. 朱梦麟,李光耀,周毅敏. 微型机与应用. 2011(19)
[5]基于内容分析的中文BBS话题检测系统的设计与实现[J]. 赵艳红,聂哲. 计算机应用与软件. 2011(06)
[6]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[7]网络爬虫在Web信息搜索与数据挖掘中应用[J]. 杨定中,赵刚,王泰. 计算机工程与设计. 2009(24)
[8]Web信息采集技术研究与发展[J]. 庞景安. 情报科学. 2009(12)
[9]基于自动生成模板的Web信息抽取技术[J]. 张彦超,刘云,李勇,沈波. 北京交通大学学报. 2009(05)
[10]话题发现与追踪技术研究[J]. 张晓艳,王挺. 计算机科学与探索. 2009(04)
硕士论文
[1]微博客数据的获取与分析方法研究[D]. 田董涛.北京交通大学 2012
[2]中文微博客热点话题检测与跟踪技术研究[D]. 孙胜平.北京交通大学 2011
[3]微博客热点话题发现策略研究[D]. 杨冠超.浙江大学 2011
[4]话题检测与跟踪算法的研究[D]. 张美珍.北京交通大学 2010
[5]基于话题检测与跟踪的话题搜索技术研究[D]. 袁吕.哈尔滨工业大学 2010
[6]新浪微博的发展研究[D]. 郑雅真.北京交通大学 2010
[7]话题检测研究[D]. 乐可欣.北京交通大学 2009
本文编号:3097935
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3097935.html