面向校园论坛的网络书写纹识别研究
本文关键词:面向校园论坛的网络书写纹识别研究,由笔耕文化传播整理发布。
【摘要】:互联网已成为广大的高校大学生表达自我、宣泄情感最主要的平台之一。想要了解大学生的内心世界并更好的引导大学生发展,进行大学生的网络行为研究是非常有必要的。本文尝试通过对大学生网络书写纹的识别研究、基于个体作者网络书写纹的话题挖掘研究和基于作者-书写纹-话题的可视化研究来展开对大学生的网络行为研究,并在华中师范大学BBS论坛——博雅论坛上收集了大量帖子作为实验数据进行相关实验。 网络书写纹是指用户在网络文字中留下的具有独特写作风格的特征集合,就像人的指纹一样是可以标记作者写作特征的独一无二的标识。因此,利用此技术可以有效的处理网络的匿名性在进行大学生网络行为的研究过程中所造成的不便。本文设计了一种能在大量作者情况下对中文网络书写纹进行识别的集成学习算法模型——基于K折交叉验证的多项式朴素贝叶斯多分类器模型。根据实验验证,在大量作者的同一数据集情况下,相对于已经广泛使用的其他分类识别算法,基于K折交叉验证的多项式朴素贝叶斯多分类器模型具有明显的优势。 基于个体作者网络书写纹的话题挖掘研究是对大学生网络行为研究的重要技术,它能挖掘出每个大学生所热衷的话题并得到其所参与的话题概率分布,从而走进他们内心的世界。本文构造了基于作者-书写纹-话题的中文文本话题挖掘模型。根据实验验证,该模型能较有效的挖掘出实验文本的相关话题及关键词,并能进一步挖掘出每个作者的话题概率分布。 基于文本的可视化技术是近年来的研究热点。本文设计并构造了基于作者-书写纹-话题的可视化模型,清楚的展示了基于作者-书写纹-话题的中文文本话题挖掘模型中所得到的关于大学生作者、话题与话题关键词的相关结论。极大的提高了作者-话题中文网络文本挖掘模型的可理解性。
【关键词】:网络行为研究 校园论坛 网络书写纹 话题挖掘 文本可视化
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:G434
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-17
- 1.1 研究背景10-11
- 1.2 国内外研究现状11-14
- 1.2.1 网络书写纹识别研究现状11-13
- 1.2.2 话题挖掘研究现状13-14
- 1.2.3 文本可视化研究现状14
- 1.3 研究意义14-15
- 1.4 研究内容与组织结构15-17
- 1.4.1 研究内容15
- 1.4.2 组织结构15-17
- 第2章 网络书写纹识别与话题提取相关技术17-28
- 2.1 引言17
- 2.2 文本预处理相关技术研究17-20
- 2.2.1 文本的特征表示17-18
- 2.2.2 特征项的选择及降维18-20
- 2.3 网络书写纹识别算法技术研究20-25
- 2.3.1 主流单分类器算法研究20-22
- 2.3.2 主流集成识别算法研究22-25
- 2.4 话题抽取相关技术研究25-26
- 2.4.1 话题模型简介25
- 2.4.2 几种话题模型研究及比较25-26
- 2.5 文本可视化技术简介26-27
- 2.6 本章小结27-28
- 第3章 基于K折交叉验证的多项朴素贝叶斯多分类器模型28-41
- 3.1 引言28
- 3.2 问题描述28-29
- 3.3 基于N-gram特征项的提取29-30
- 3.4 基于K折交叉验证的集成学习算法30-33
- 3.4.1 K折交叉验证原理30-31
- 3.4.2 基于K折交叉验证原理改进的集成学习算法及流程31-32
- 3.4.3 随机采样方法32
- 3.4.4 集成算法融合策略32-33
- 3.5 基于朴素贝叶斯的基分类器算法33-37
- 3.5.1 贝叶斯理论33-35
- 3.5.2 朴素贝叶斯分类器35-36
- 3.5.3 多项式朴素贝叶斯分类器模型36-37
- 3.6 实验设计与结果分析37-40
- 3.6.1 数据集及文本预处理37
- 3.6.2 性能评估方法37-38
- 3.6.3 实验设计38
- 3.6.4 结果分析38-40
- 3.7 本章小结40-41
- 第4章 基于个体作者书写纹的话题抽取模型41-51
- 4.1 引言41
- 4.2 特征项的提取41-42
- 4.3 基于LDA模型扩展的AMT模型42-45
- 4.4 AMT模型实现45-46
- 4.5 实验设计与结果分析46-50
- 4.6 本章小结50-51
- 第5章 基于文本分类的个体作者话题模型可视化展示51-56
- 5.1 可视化模型框架设计思想及UML类图展示51-53
- 5.1.1 可视化模型设计思想51-52
- 5.1.2 可视化模型UML图展示52-53
- 5.2 可视化展示53-55
- 5.3 本章小结55-56
- 第6章 总结和展望56-58
- 6.1 总结56-57
- 6.2 展望57-58
- 参考文献58-63
- 在校期问所发表的论文63-64
- 致谢64
【参考文献】
中国期刊全文数据库 前10条
1 张运良;朱礼军;乔晓东;张全;;基于句类特征的作者写作风格分类研究[J];计算机工程与应用;2009年22期
2 崔凯;周斌;贾焰;梁政;;一种基于LDA的在线主题演化挖掘模型[J];计算机科学;2010年11期
3 孙建文;杨宗凯;刘三(女牙);王佩;;基于集成学习与遗传算法的网络书写纹识别研究[J];计算机科学;2011年06期
4 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
5 武晓春;黄萱菁;吴立德;;基于语义分析的作者身份识别方法研究[J];中文信息学报;2006年06期
6 黎冬媛;刘智;刘三(女牙);孟文婷;;采用半随机特征采样算法的中文书写纹识别研究[J];计算机科学;2013年02期
7 唐家渝;刘知远;孙茂松;;文本可视化研究综述[J];计算机辅助设计与图形学学报;2013年03期
8 阎辉,张学工,李衍达;应用SVM方法进行沉积微相识别[J];物探化探计算技术;2000年02期
9 唐杰;宫继兵;刘柳;杨文军;;基于话题模型的学术社会网络建模及应用[J];中国科技论文在线;2011年01期
10 杨潇;马军;杨同峰;杜言琦;邵海敏;;主题模型LDA的多文档自动文摘[J];智能系统学报;2010年02期
中国博士学位论文全文数据库 前1条
1 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
本文关键词:面向校园论坛的网络书写纹识别研究,由笔耕文化传播整理发布。
,本文编号:312352
本文链接:https://www.wllwen.com/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/312352.html