当前位置:主页 > 管理论文 > 移动网络论文 >

基于主题树的微博突发话题检测

发布时间:2017-08-25 07:55

  本文关键词:基于主题树的微博突发话题检测


  更多相关文章: 潜在狄利克雷分配 主题树 语义相似度 空间向量模型 话题检测


【摘要】:针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法。首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词"贡献度"的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该"贡献度"作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的。提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑。
【作者单位】: 辽宁工程技术大学软件学院;辽宁工程技术大学系统工程研究所;
【关键词】潜在狄利克雷分配 主题树 语义相似度 空间向量模型 话题检测
【基金】:国家自然科学基金资助项目(70971059) 辽宁省创新团队项目(2009T045) 辽宁省高等学校杰出青年学者成长计划项目(LJQ2012027)
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言微博,即微博客的简称,其在博客的基础上加以改进,使得微博更加大众化、随意化和简短化[1],但随之也带来了许多问题:首先,微博的普遍化导致当今微博的草根化(短文本中出现了较多的文法问题);其次,微博改进后的简短形式导致短文本中指代省略,引起指代不明确(短文本回帖多数

【相似文献】

中国期刊全文数据库 前10条

1 李建锋;陈佳良;张美华;;一种基于聚类-遗传算法的文摘提取方法研究[J];计算技术与自动化;2007年03期

2 李兴鹏;秦昌友;;垃圾邮件综合过滤系统的研究与设计[J];电脑知识与技术(学术交流);2007年19期

3 熊桂喜;王开锋;;基于语义的查询扩展研究[J];微计算机信息;2008年30期

4 黄立勤;语义集成在信息自动获取系统中的实现[J];福州大学学报(自然科学版);2002年06期

5 时念云;杨晨;;基于领域本体的语义标注方法研究[J];计算机工程与设计;2007年24期

6 蔡玮;黄陈蓉;林忠;韩磊;;一种基于向量空间模型的主观题批改算法[J];计算机与现代化;2008年12期

7 刘杨;陈晖;陈远江;;中文文本信息过滤技术研究[J];船电技术;2010年07期

8 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期

9 张昌年;;一种基于VSM的检测相似重复记录的方法[J];微电子学与计算机;2008年08期

10 林鸿飞,王剑峰;双语交叉分类模型的设计与实现[J];中文信息学报;2001年06期

中国重要会议论文全文数据库 前1条

1 唐国瑜;夏云庆;张民;郑方;;基于跨语言广义向量空间模型的跨语言文档聚类方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国博士学位论文全文数据库 前4条

1 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年

2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

3 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年

中国硕士学位论文全文数据库 前10条

1 疏兴旺;基于地理本体的皖江岸线空间规划决策研究[D];安徽农业大学;2012年

2 贾丙静;聚类分析在Web文本挖掘中的应用研究[D];辽宁工程技术大学;2007年

3 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年

4 张艳;Web挖掘在搜索引擎个性化中的应用研究[D];合肥工业大学;2008年

5 黄欢;达梦数据库全文检索关键技术研究[D];华中科技大学;2007年

6 刘玉新;Web2.0互联网在线话题发现和热度评估[D];华南理工大学;2013年

7 颜小林;基于本体的Web页面聚类挖掘[D];太原理工大学;2007年

8 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年

9 王海宝;基于Web的在线考试系统的设计与实现[D];青岛大学;2007年

10 张瑜;基于本体的农业科技信息用户建模系统研究[D];中国农业科学院;2009年



本文编号:735900

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/735900.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78817***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com