基于web的中小学校园安全事件的分类与主题追踪研究
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G637.4
【图文】:
2.1网络爬虫逡逑网络爬虫是基于网页的链接地址进行工作的,从网站的某一个页面(可以是首页)逡逑出发,对网页中的内容进行读取,如果内容中包含了其他的链接地址,那么在搜索下一逡逑个网页时就要用到之前的链接地址,循环进行上面的操作,直到这个网站的所有网页都逡逑被抓取了邋一遍。逡逑网络爬虫的工作流程是首先要对URL队列进行初始化,在初始化后对种丫?邋URL进逡逑行确定,,获取web页面后,从中抽取URL并把它加入队列中,丨nj时将这些贝而放入逡逑网页库M。针对N络爬虫的各个策略如深度优先策略、广度优先策略等策略可以分析K逡逑8逡逑
通常情况下表示成主题集。主题集与包含在其内的众多关键词会形成一个指定的多逡逑项式分布,该分布体现出主题与单词的关系。主题与词汇对应的多项式分布体现出主题逡逑与单词的关系。LDA模型图形表示形式如图2-2所示逡逑?逡逑逦词分逦逡逑逦M逡逑图2-2邋LDA模型基本工作流程逡逑LDA模型图表示的含义如下:在文本中存在着多种主题,这些主题中通过某种概率逡逑模型进行选取词汇,这样有多个词以某种概率模型便得到了相对应的主题。作为一种非逡逑监督机器学习技术,LDA可以方便识别大规模文档集和语料库中隐藏的主题相关信息。逡逑13逡逑
算法的核心思想是.?建立中小学校园安全事件的主题词表、构建校园安全事件的向量空逡逑间模型、利用余弦定理计算校园安全的主题词表中每一类与待分类文本的相似度。基于逡逑主题词表的文本分类工作流程图如图3-1所示。逡逑建立中小^校园安逦|用向量空间逡逑全事件信息的词表逦1表示该词表逡逑V逦I把词表T中的词作为逡逑备"—待分类文本的特征逡逑个待分类文本逦0逡逑计算该词表的每一类逡逑与各个待分类文木的逡逑相f以度逦I逡逑结束逡逑\逦逡逑图3-1基于主楲词表的文本分类工作流程图逡逑3.1.1中小学校园安全事件的主题词表建立逡逑网络关于中小学生校阅安全事件的信息分布不均匀.因此,需要建立一个关于中小逡逑学生校园安全事件相关信息的词表。将中小学校园安全共分为12个类,分别是“教育教逡逑14逡逑
【参考文献】
相关期刊论文 前10条
1 梁军;柴玉梅;原慧斌;高明磊;昝红英;;基于极性转移和LSTM递归网络的情感分析[J];中文信息学报;2015年05期
2 李风环;郑德权;赵铁军;;基于浅层语义分析的主题事件的时间识别[J];山东大学学报(理学版);2015年11期
3 周庆燕;何利力;胡靖枫;;搜索引擎中网络爬虫策略在烟草行业中的应用研究[J];工业控制计算机;2014年12期
4 邹晓辉;孙静;;LDA主题模型[J];智能计算机与应用;2014年05期
5 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
6 徐媛;吴超;;安全教育学基础原理及其体系研究[J];中国安全科学学报;2013年09期
7 路永和;李焰锋;;改进TF-IDF算法的文本特征项权值计算方法[J];图书情报工作;2013年03期
8 郭岩;刘春阳;余智华;张瑾;戴媛;;网络舆情信息源影响力的评估研究[J];中文信息学报;2011年03期
9 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
10 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期
相关博士学位论文 前1条
1 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年
相关硕士学位论文 前10条
1 韩军华;一种用于文本理解的高效关键词抽取算法[D];南京大学;2016年
2 刘斌;文本分类特征提取算法的研究[D];吉林大学;2016年
3 韦强申;领域关键词抽取:结合LDA与Word2Vec[D];贵州师范大学;2016年
4 谭静;基于向量空间模型的文本相似度算法研究[D];西南石油大学;2015年
5 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
6 管梓辰;我国中小学校园安全问题研究[D];黑龙江大学;2013年
7 张振峰;基于向量空间模型的文本分类算法研究[D];杭州电子科技大学;2011年
8 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
9 段育鹏;中小学校园安全管理问题研究[D];郑州大学;2010年
10 张美珍;话题检测与跟踪算法的研究[D];北京交通大学;2010年
本文编号:2763259
本文链接:https://www.wllwen.com/jiaoyulunwen/chuzhongjiaoyu/2763259.html