当前位置:主页 > 管理论文 > 移动网络论文 >

基于专业个人微博的事件提取研究

发布时间:2017-05-18 19:17

  本文关键词:基于专业个人微博的事件提取研究,由笔耕文化传播整理发布。


【摘要】:近年来,,随着计算机技术的大力发展和大量普及,网络信息的传播速度与数量都呈现出爆炸式的增长。微博客是一种新的媒体,成为了电视、广播等传统媒体的又一个新闻媒体,互联网用户普及率很高,是互联网上信息的主要来源。微博和传统的文本相比,人们可以更方便、实时地表达自己的看法和感受,但同时也产生了大量的冗余信息。 微博有着文本较短、话题快速变换和使用网络语言等特点,故不同于传统的文本。个人微博的表达方式与传统的文本也有着很大的不同,从形式上讲,个人微博内容已文字为主,也可以包括一些表情符号、链接、音频、视频等。在内容上,个人微博主要是分享一些生活中的事情,当然也包括一些公共热点。而本文所涉及的是专业个人微博,其主要讨论的话题是与博主从事专业相关的,话题活动基本限定在一个专业领域,也包含一部分公共话题。本文所研究的专业个人微博指的是博主发表的微博内容是与其从事领域相关的。 由于微博内容简单且移动设备普及,可以通过移动设备随时随地发布,所以能够在短时间产生大量的数据,人类所面对的网络信息迅速增多。如果用人工手段来处理这样庞大且无规则的微博信息,不仅工作量是巨大的,而且难以及时、准确的找到自己所关注的信息。无数实验结果表明,用传统算法提取的专业个人微博事件效果都不理想。因此如何从大量杂乱无章的个人微博信息中快速找到自己关注的信息,是目前个人微博信息检测技术未来的科研趋势。 为了自动识别出博主的专业兴趣活动,提出了一种基于LDA的专业个人微博事件提取算法。不断筛选从开放平台中获取的微博数据,不断过滤信息价值不大的文本,符号以及无关链接,使用分词工具ICTCLAS来对专业个人微博进行分词,将特征词的词性标出并剔除停用词;其次,根据特征选择评估函数CHI对不同特征词对不同类别的重要程度进行衡量,再根据特征词在同一类文本中均匀分布的原则,利用改进了的TF-IDF进行微博特征词提取并采用LDA为语料库建模,以此来挖掘出不同主题和词之间的关系,使得权重较大的词更能反映出微博主题。从而得到微博在各主题下的概率分布,并结合时间相似度计算出专业个人微博的综合相似度,最后利用改进了的K-Means聚类,将讨论同一话题的微博聚集到同一个集合中,从而与人工数据进行比对。 实验结果验证了该算法的有效性,同时表明了该算法可以有结构、有条理的呈现出人们感兴趣的微博事件。
【关键词】:专业个人微博 LDA 相似度 事件提取
【学位授予单位】:内蒙古科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
  • 摘要3-5
  • Abstract5-10
  • 1 绪论10-17
  • 1.1 研究背景10-12
  • 1.2 国内外研究现状12-15
  • 1.3 论文主要研究内容15
  • 1.4 本文的组织结构15-17
  • 2 微博信息提取的相关技术17-27
  • 2.1 微博数据获取17-18
  • 2.2 微博预处理18-22
  • 2.2.1 选取微博18-19
  • 2.2.2 中文分词及词性标记19-20
  • 2.2.3 过滤停用词和表情词20-22
  • 2.3 微博建模22
  • 2.4 特征选择22-25
  • 2.4.1 文档频度22-23
  • 2.4.2 信息增益23
  • 2.4.3 互信息23-24
  • 2.4.4 CHI 统计24-25
  • 2.5 特征值权重计算25-26
  • 2.5.1 布尔权重25
  • 2.5.2 TFIDF 权重25-26
  • 2.6 本章小结26-27
  • 3 相似度计算方法27-31
  • 3.1 基于 VSM 的相似度计算28
  • 3.2 基于语义理解的相似度计算28-29
  • 3.3 基于潜在语义分析的相似度计算29-30
  • 3.4 本章小结30-31
  • 4 基于 LDA 的专业个人微博相似度计算31-40
  • 4.1 微博预处理31-32
  • 4.2 改进的 TF-IDF 特征词提取32-34
  • 4.3 主题分类34-37
  • 4.3.1 LDA 基本思想34-35
  • 4.3.2 Gibbs 抽样35-36
  • 4.3.3 标签36-37
  • 4.4 个人微博相似度计算37-38
  • 4.4.1 主题相似度37
  • 4.4.2 时间相似度37-38
  • 4.4.3 综合相似度38
  • 4.5 微博事件提取38-39
  • 4.6 本章小结39-40
  • 5 实验结果与分析40-44
  • 5.1 实验环境及平台搭建40
  • 5.2 微博数据收集40
  • 5.3 实验数据评价标准40-41
  • 5.4 微博归类实验结果及分析41-42
  • 5.5 本章小结42-44
  • 6 总结与展望44-46
  • 6.1 本文完成的工作44-45
  • 6.2 不足之处和工作展望45-46
  • 参考文献46-51
  • 在学研究成果51-52
  • 致谢52

【相似文献】

中国期刊全文数据库 前10条

1 吴丽华;罗云锋;符海艳;;不确定知识的相似度量方法及应用[J];广西师范大学学报(自然科学版);2007年04期

2 赵宜宾;曾文艺;;基于蕴涵算子的Vague集的相似度[J];系统工程理论与实践;2008年12期

3 王洪凯,管延勇,史开泉;粗集间的相似度量及其应用[J];计算机工程与应用;2004年31期

4 李燕;;基于WSMO算子的语言型多属性决策模型研究[J];商场现代化;2009年05期

5 田野;陈东锋;雷英杰;;基于直觉模糊相似度量的近似推理方法[J];空军工程大学学报(自然科学版);2007年06期

6 杨洁;王鸿绪;;Vague模式排序法进行目标价值排序[J];计算机工程与应用;2012年02期

7 魏坤;赵永强;潘泉;张洪才;;一种改进相似度量的红外目标跟踪算法[J];光子学报;2008年05期

8 王海丰;王鸿绪;张鲲;;Vague集方案优选算法在传动方案优选中的应用[J];计算机科学;2013年S1期

9 李凡,蔡立晶,吕泽华;Vague集的三维表示[J];华中科技大学学报(自然科学版);2002年10期

10 兰蓉;;基于直觉模糊集相似度量的多属性决策方法[J];西安邮电学院学报;2010年03期

中国重要会议论文全文数据库 前1条

1 陈宁;陈安;周龙骧;;混合类型数据相似度及网格聚类算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

中国博士学位论文全文数据库 前1条

1 吕泽华;模糊集理论的新拓展及其应用研究[D];华中科技大学;2007年

中国硕士学位论文全文数据库 前10条

1 张敏;边界不确定性集合的相似度量的研究[D];西安电子科技大学;2006年

2 贺笑;基于形状特性的人脸相似度的描述与分析[D];南京理工大学;2014年

3 高鹏;推荐系统中信息相似度的研究及其应用[D];上海交通大学;2013年

4 孙瑞;模糊数的相似度及其在风险分析中的应用[D];西华大学;2013年

5 章四兵;基于相似度量的机械产品系统的分类方法研究[D];合肥工业大学;2004年

6 唐志刚;Vague集理论及其应用研究[D];广西大学;2007年

7 李哲;相似度量及其在系统发育分析中的应用研究[D];湘潭大学;2013年

8 朱振国;Vague集相似度量研究[D];重庆邮电大学;2007年

9 王万军;Vague集不确定信息处理的SPA方法及应用研究[D];兰州大学;2012年

10 孙丽;基于区间Vague集的相似度量与得分函数的决策方法及其应用[D];安徽大学;2013年


  本文关键词:基于专业个人微博的事件提取研究,由笔耕文化传播整理发布。



本文编号:376940

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/376940.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d0e0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com