当前位置:主页 > 管理论文 > 移动网络论文 >

不文明微博帖的自动识别方法研究

发布时间:2017-09-04 05:41

  本文关键词:不文明微博帖的自动识别方法研究


  更多相关文章: 微博 文本分类 朴素贝叶斯 二元语言模型


【摘要】:随着互联网的高速发展,各类社交网络产品正不断改变着人们的生活方式。微博作为这些产品中的佼佼者,进一步促进了个人与世界的交互。然而微博产品的无门槛准入机制也招致了大量水军散播的不良信息和用户无责任的恶意言论,它们不仅对各年龄段微博使用者的身心造成了影响,更危害着整个网络环境甚至是社会秩序。为了净化网络环境、促进和谐的网络语言生活方式的建设,需要落实对微博信息的监管工作,而对于不文明微博的自动识别则是监管工作中的重要环节。若要实现不文明微博的自动识别,应对微博帖进行不文明倾向的分类。本文的工作主要包括以下两大部分:第一,本文提出了不文明微博语料库的构建方法。由于没有合适的微博语料库来开展研究,特别是缺少一定规模的不文明的微博帖,本文通过调用腾讯微博API下载公共时间线的微博,提取其中的用户种子,并以用户种子为基础获取大规模的用户信息及用户微博文件。针对微博数据中一些对研究毫无意义的微博帖,定义了筛选规则对其进行剔除。另外为了抽取潜在的不文明微博帖,建立了不文明种子词表来匹配一部分可能具有不文明倾向的语料,便于后续研究工作。最后,对微博数据文件进行解析即可索引式地构建不文明微博语料库。第二,本文提出了不文明微博帖的自动识别方法,它的核心问题是微博短文本的分类。我们选择使用朴素贝叶斯分类器作为分类模型,结合基于字的二元语言模型思想对文本进行切分以提取关键的不文明特征。在完成语料人工标注后,进行朴素贝叶斯分类器的训练及分类应用。由于在真实网络环境中不文明微博所占比例未知,引入了正反样例比来动态调整训练集与测试集中不文明微博与非不文明微博的比例,直到分类准确率达到局部最优。对于本模型不能识别的不文明缩写等内容,在前一步的基础上又建立了不文明缩写词表,实现了基于缩写词的不文明微博识别方法,识别效果得到了进一步改善。最后,本文列举说明了不文明微博帖自动识别系统在微博舆情监测中的应用。
【关键词】:微博 文本分类 朴素贝叶斯 二元语言模型
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-17
  • 1.1 研究背景与意义10-12
  • 1.2 选题来源12-13
  • 1.3 国内外研究现状13-14
  • 1.4 本文的主要研究内容14-16
  • 1.5 论文组织结构16-17
  • 第二章 相关研究综述17-28
  • 2.1 文本分类基本方法17-21
  • 2.1.1 朴素贝叶斯分类17-18
  • 2.1.2 决策树分类18-19
  • 2.1.3 支持向量机19-21
  • 2.2 统计语言模型21-25
  • 2.2.1 上下文无关模型21-22
  • 2.2.2 N-gram模型22-23
  • 2.2.3 隐马尔可夫模型23-24
  • 2.2.4 最大熵模型24-25
  • 2.3 中文分词方法25-27
  • 2.3.1 基于规则的方法25-27
  • 2.3.2 基于统计的方法27
  • 2.4 本章小结27-28
  • 第三章 不文明微博语料库的构建28-41
  • 3.1 微博数据提取28-33
  • 3.1.1 用户种子提取28-31
  • 3.1.2 用户数据下载31-33
  • 3.2 语料筛选33-37
  • 3.2.1 语料分析34-35
  • 3.2.2 不文明种子词表的构建35-36
  • 3.2.3 语料过滤36-37
  • 3.3 语料存储37-40
  • 3.3.1 数据解析37-39
  • 3.3.2 索引式存储39-40
  • 3.4 本章小结40-41
  • 第四章 不文明微博帖自动识别系统41-63
  • 4.1 基于朴素贝叶斯的分类模型41-50
  • 4.1.1 朴素贝叶斯分类的可行性分析41-43
  • 4.1.2 基于Bigram的文本切分与特征选取43-47
  • 4.1.3 训练集的动态构建47-49
  • 4.1.4 模型的训练和使用49-50
  • 4.2 不文明用语分类实验50-58
  • 4.2.1 人工标注51-53
  • 4.2.2 分类器训练53-54
  • 4.2.3 实验与结果分析54-58
  • 4.3 不文明缩写识别模型58-60
  • 4.3.1 不文明缩写识别方法58-59
  • 4.3.2 实验结果分析59-60
  • 4.4 不文明微博自动识别系统的应用60-62
  • 4.4.1 用户个体分析60-61
  • 4.4.2 语言趋势分析61-62
  • 4.5 本章小结62-63
  • 第五章 总结与展望63-65
  • 5.1 本文总结63
  • 5.2 展望63-65
  • 参考文献65-69
  • 攻读硕士学位期间参与的科研项目与发表的论文69-70
  • 致谢70

【相似文献】

中国期刊全文数据库 前10条

1 温艳玲;;食品追溯系统自动识别方法研究——以猪肉食品为例[J];信息与电脑(理论版);2011年12期

2 刘惠娟;周源华;;地图中河流的自动识别方法[J];自动化学报;1993年04期

3 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期

4 唐慧君,王建军,罗秀娟,周泗忠;一种点阵码的自动识别方法[J];应用光学;2004年05期

5 秦海勤;徐可君;江龙平;;分形理论应用中无标度区自动识别方法[J];机械工程学报;2006年12期

6 游宏梁;张巍;沈钧毅;刘挺;;一种基于加权投票的术语自动识别方法[J];中文信息学报;2011年03期

7 周激流,何其超;人脸正面模式自动识别方法研究[J];四川大学学报(自然科学版);1993年01期

8 陈京德,季明松;非接触IC卡读写领域的一次技术创新——非接触IC卡多功能读写器[J];金卡工程;2003年05期

9 曾维亮;梁春生;李冉;皮亦鸣;;基于边缘最大匹配的印鉴自动识别方法[J];信息与电子工程;2006年05期

10 曾维亮;梁春生;李冉;;基于边缘最大匹配的印鉴自动识别方法[J];实验科学与技术;2006年S1期

中国重要会议论文全文数据库 前10条

1 郑家恒;杨晓岩;;英文译名自动识别方法研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

2 钟茂生;;基于词语形式标记的句际语义关系自动识别方法[A];第五届全国信息检索学术会议论文集[C];2009年

3 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年

4 黄行;江荻;;现代藏语判定动词句主宾语的自动识别方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 杜小毅;于濂;;基于联合特征的车标自动识别方法[A];第七届中国智能交通年会优秀论文集——智能交通技术[C];2012年

6 王宁;游志胜;潘薇;李贵俊;;一种护照编码自动识别方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年

7 尚英;;动词重叠形式的自动识别方法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年

8 刘旭花;孟祥增;刘俊晓;吴鹏飞;;一种基于知识库的图像对象自动识别方法[A];第十三届全国图象图形学学术会议论文集[C];2006年

9 王昆翔;韩加;徐勇;;关于人脸图象自动识别方法的研究[A];2001年中国智能自动化会议论文集(上册)[C];2001年

10 杨志华;齐东旭;江力;杨力华;;一种基于EMD分解的睡眠脑电图梭形波自动识别方法[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年

中国硕士学位论文全文数据库 前10条

1 陈U,

本文编号:789711


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/789711.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a98e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com