当前位置:主页 > 教育论文 > 初中教育论文 >

基于web的中小学校园安全事件的分类与主题追踪研究

发布时间:2020-07-20 09:29
【摘要】:中小学校园安全是顺利开展教育活动的基础,关系到中小学生的家庭和谐以及社会稳定,校园安全事件已经成为一项社会各界关注的热点问题。采用信息化的技术可以分析出中小学校园安全事件的网络舆情的变化趋势。在此背景下,基于web的中小学校园安全事件分类与主题追踪的研究通过文本分类、主题抽取、主题追踪等技术对中小学校园安全事件进行分析与统计。论文的主要研究内容如下:(1)研究基于web的中小学校园安全事件的数据采集技术和数据预处理技术。数据收集采用的是网络爬虫的广度优先策略,收集关于中小学校园安全的新闻事件网页,利用正则表达式进行网页预处理。同时采用中文分词技术进行数据预处理。(2)研究校园安全事件的分类与主题追踪算法。文本校园安全事件信息的分类算法是基于主题词表的相似度计算进行的。将分类好的中小学校园安全事件进行主题抽取,利用LDA模型识别出主题信息。基于各类别的中小学校园安全事件中的主题集,利用命名实体识别以及相关算法,从而进行事件要素信息抽取研究。与此同时,对分类好的校园安全事件文本主题进行追踪,从多个维度出发对中小学校园安全事件进行趋向性分析。(3)设计并实现基于web的中小学校园安全事件的原型系统,主要包括校园安全事件文本信息的分类模块,主题追踪模块,主题抽取模块。对于每个模块的设计思路和功能实现在文中进行了具体描述。根据本研究的分析结果表明,在一定程度上,该基于web的原型系统可以获取各类中小学校园安全事件的变化趋势,有益于学校校园安全管理员开展校园安全教育工作。同时该原型系统可用于对收集好的中小学校园安全事件的统计分析,为校园管理人员提供数据支持。
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G637.4
【图文】:

路线图,安全事件,路线,网络爬虫


2.1网络爬虫逡逑网络爬虫是基于网页的链接地址进行工作的,从网站的某一个页面(可以是首页)逡逑出发,对网页中的内容进行读取,如果内容中包含了其他的链接地址,那么在搜索下一逡逑个网页时就要用到之前的链接地址,循环进行上面的操作,直到这个网站的所有网页都逡逑被抓取了邋一遍。逡逑网络爬虫的工作流程是首先要对URL队列进行初始化,在初始化后对种丫?邋URL进逡逑行确定,,获取web页面后,从中抽取URL并把它加入队列中,丨nj时将这些贝而放入逡逑网页库M。针对N络爬虫的各个策略如深度优先策略、广度优先策略等策略可以分析K逡逑8逡逑

模型图,主题,模型图,模型基


通常情况下表示成主题集。主题集与包含在其内的众多关键词会形成一个指定的多逡逑项式分布,该分布体现出主题与单词的关系。主题与词汇对应的多项式分布体现出主题逡逑与单词的关系。LDA模型图形表示形式如图2-2所示逡逑?逡逑逦词分逦逡逑逦M逡逑图2-2邋LDA模型基本工作流程逡逑LDA模型图表示的含义如下:在文本中存在着多种主题,这些主题中通过某种概率逡逑模型进行选取词汇,这样有多个词以某种概率模型便得到了相对应的主题。作为一种非逡逑监督机器学习技术,LDA可以方便识别大规模文档集和语料库中隐藏的主题相关信息。逡逑13逡逑

工作流程图,词表,主题词表,安全事件


算法的核心思想是.?建立中小学校园安全事件的主题词表、构建校园安全事件的向量空逡逑间模型、利用余弦定理计算校园安全的主题词表中每一类与待分类文本的相似度。基于逡逑主题词表的文本分类工作流程图如图3-1所示。逡逑建立中小^校园安逦|用向量空间逡逑全事件信息的词表逦1表示该词表逡逑V逦I把词表T中的词作为逡逑备"—待分类文本的特征逡逑个待分类文本逦0逡逑计算该词表的每一类逡逑与各个待分类文木的逡逑相f以度逦I逡逑结束逡逑\逦逡逑图3-1基于主楲词表的文本分类工作流程图逡逑3.1.1中小学校园安全事件的主题词表建立逡逑网络关于中小学生校阅安全事件的信息分布不均匀.因此,需要建立一个关于中小逡逑学生校园安全事件相关信息的词表。将中小学校园安全共分为12个类,分别是“教育教逡逑14逡逑

【参考文献】

相关期刊论文 前10条

1 梁军;柴玉梅;原慧斌;高明磊;昝红英;;基于极性转移和LSTM递归网络的情感分析[J];中文信息学报;2015年05期

2 李风环;郑德权;赵铁军;;基于浅层语义分析的主题事件的时间识别[J];山东大学学报(理学版);2015年11期

3 周庆燕;何利力;胡靖枫;;搜索引擎中网络爬虫策略在烟草行业中的应用研究[J];工业控制计算机;2014年12期

4 邹晓辉;孙静;;LDA主题模型[J];智能计算机与应用;2014年05期

5 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期

6 徐媛;吴超;;安全教育学基础原理及其体系研究[J];中国安全科学学报;2013年09期

7 路永和;李焰锋;;改进TF-IDF算法的文本特征项权值计算方法[J];图书情报工作;2013年03期

8 郭岩;刘春阳;余智华;张瑾;戴媛;;网络舆情信息源影响力的评估研究[J];中文信息学报;2011年03期

9 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期

10 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期

相关博士学位论文 前1条

1 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年

相关硕士学位论文 前10条

1 韩军华;一种用于文本理解的高效关键词抽取算法[D];南京大学;2016年

2 刘斌;文本分类特征提取算法的研究[D];吉林大学;2016年

3 韦强申;领域关键词抽取:结合LDA与Word2Vec[D];贵州师范大学;2016年

4 谭静;基于向量空间模型的文本相似度算法研究[D];西南石油大学;2015年

5 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年

6 管梓辰;我国中小学校园安全问题研究[D];黑龙江大学;2013年

7 张振峰;基于向量空间模型的文本分类算法研究[D];杭州电子科技大学;2011年

8 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年

9 段育鹏;中小学校园安全管理问题研究[D];郑州大学;2010年

10 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年



本文编号:2763259

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/chuzhongjiaoyu/2763259.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44d65***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com