当前位置:主页 > 教育论文 > 学校管理论文 >

教育政策文本的分类算法研究与应用

发布时间:2020-04-20 04:57
【摘要】:随着国家对教育事业的大力推进以及信息化技术的快速发展,教育政策数据在持续地膨胀,在线的教育政策数据已经海量化。如何高效管理海量的教育政策数据从而挖掘出更多有价值的信息已经变得十分困难。目前,依靠传统的人工方式来进行多种类别的教育政策数据的采集、分类与管理,工作量很大、任务十分繁杂难以完成。自然语言处理中的文本分类技术,可以在节省人力成本资源的基础上,更高效地对文本数据进行自动划分类别。因此,本文将文本分类技术应用到教育政策数据的自动分类中,快速定位以及准确查找教育政策数据,进而实现教育政策数据的信息化管理与可视化分析。本文以教育政策文本为研究对象,围绕教育政策数据的采集、文本分类和数据可视化进行研究,设计并实现了教育政策文本分类可视化系统。本文的主要工作如下:1.针对如何全面地获取大量教育政策数据的问题,本文通过分析北大法宝数据库网站的网页结构和特点,设计并实现了基于网络爬虫技术的教育政策数据采集模块。该模块通过模拟登录的方法解决身份认证问题,采用广度优先搜索算法的思想,结合Beautiful Soup、正则表达式和数据库等技术,实现了教育政策数据的采集。教育政策数据采集模块解决了请求北大法宝网站过于频繁、教育政策数据抓取不全面的问题,实现了对教育政策数据的全面高效采集。2.针对如何对教育政策准确分类的问题,本文提出了结合标题与正文注意力机制的文本分类算法。该算法根据教育政策文本含有标题和正文的特点,将文本按照标题和正文进行建模。在特征词的表示上,使用循环结构提取特征词的上下文语义信息,能够更好地消除特征词的歧义;在标题和正文文本表示上,使用最大池化技术来保留文本中重要的潜在语义信息;在整篇文本的表示上,使用注意力机制为标题和正文分配注意力权重,然后对文本进行向量表示,以充分利用教育政策的标题信息。通过与现有的分类算法进行实验对比,验证了该算法在教育政策文本分类问题上的优越性。3.为了加强教育政策领域的信息化管理,本文设计并实现了教育政策文本分类与可视化系统。一方面,通过将结合标题与正文注意力机制的文本分类算法应用在系统中,实现了教育政策的自动分类,减轻了教育政策管理人员的压力,提升了教育政策管理的效率;另一方面,通过分析及挖掘教育政策数据,实现了教育政策数据在地理位置上的分布信息与类别数量信息展示,能够直观的展示出教育政策的整体数据信息,来辅助教育政策主管部门做出决策。综上所述,本文首先设计了教育政策数据采集模块,实现了对教育政策数据高效全面的抓取。其次,提出了基于标题与正文注意力机制的教育政策分类算法,能够充分利用特征词的语义信息,并根据标题与正文对分类结果的重要性合理分配权重。通过在教育政策数据集上与其他算法进行实验对比,证明了本文算法优于对比算法。最后,设计并实现了教育政策文本分类与可视化系统,不仅可以提高教育政策分类的性能,还能提升教育政策管理工作的效率,有利于我国教育政策数据的信息化管理。
【图文】:

网络爬虫,流程,去重,队列


进行去重处理,并去除那些已经爬行过的URL,再把这些新的URL添加到待抓逡逑取的队列中用来循环抓取,直到满足爬虫程序的终止条件。通用的网络爬虫流程逡逑如图2.1所示。逡逑7逡逑

概率分布,模型结构,输出层


安徽大学硕士学位论文逦教育政策文本的分类算法研宄与应用逡逑Glove邋[35]等,使用这些词向量训练工具可以很方便的训练到高质量的词向量,本逡逑文选用Google开源的word2vec作为词向量训练工具。逡逑word2Vec根据设计思想不同,分为CBOW模型(Continuous邋Bag-of-Word逡逑Model)和邋Skip-gram邋模型(Continuous邋Skip-gram邋Model)。它们的网络结构如图逡逑2.2所示,,均包含输入层、投影层与输出层。其中,CBOW模型的思想是根据窗口逡逑词来预测中心词,即使用一个词的上下文语义来预测这个词。它的输入层为窗口逡逑词的One-hot编码的分布式表示,投影层对输入做加权平均,输出层则使用逡逑softmax函数计算目标词的概率分布。而Skip-gram根据中心词来预测窗口词,逡逑通过输入一个词来预测它之前和之后指定范围内的词出现的概率。它的输入是目逡逑标词分布式表示,输出层是目标词的窗口词的词向量。逡逑输入层逦投影层邋输出层逦输入层邋投影层邋输出层逡逑
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;G40-011.8

【相似文献】

相关期刊论文 前10条

1 武学超;徐雅婷;;我国政府推动产学研协同创新政策文本分析(2006-2016)——政策工具视角[J];高教探索;2018年04期

2 焦雨生;;湖北省创新产品需求激励政策的反思与重构——基于政策文本分析的视角[J];黄冈师范学院学报;2018年05期

3 裴雷;孙建军;周兆韬;;政策文本计算:一种新的政策文本解读方式[J];图书与情报;2016年06期

4 王洪席;;我国综合素质评价政策的演进历程及特征分析——基于(1999—2014年)政策文本的分析[J];课程.教材.教法;2016年12期

5 杨正联;;公共政策文本的符号展示意义分析[J];人文杂志;2012年03期

6 王迎;魏顺平;;教育政策文本分析研究[J];现代远距离教育;2012年02期

7 张伟;薄存旭;;“双一流”建设的价值逻辑与实践路径——基于四省“双一流”建设的系列政策文本分析[J];现代教育管理;2018年01期

8 刘晖;李晶;;我国高等教育质量保障政策变迁研究——基于1985—2016年的政策文本[J];苏州大学学报(教育科学版);2018年02期

9 袁志彬;;基于政策文本分析的科技政策评估模型和实证研究[J];党政研究;2017年01期

10 黄栋;许鑫;;基于可持续转型的我国新能源汽车政策文本分析[J];科技管理研究;2017年13期

相关会议论文 前3条

1 王青;曾云敏;杨琳;;广东碳汇政策文本评估分析[A];2017中国环境科学学会科学与技术年会论文集(第四卷)[C];2017年

2 邬志辉;李涛;周兆海;;农村教师津补贴政策文本的计量分析——基于地方政府的政策文本[A];基础教育区域性发展的理论视野与实践模式学术研讨会会议资料[C];2012年

3 唐五湘;饶彩霞;程桂枝;;北京市科技金融政策文本量化分析[A];科技型小微企业创新发展论坛论文集[C];2013年

相关重要报纸文章 前8条

1 张绍勇 张盛斌 滕晓军;湘鄂黔渝23县起草《武陵山片区扶持政策文本》[N];湘声报;2012年

2 华中师范大学 刘斌;适度调整?过度撤并?[N];社会科学报;2012年

3 中国教育科学研究院基础教育课程研究中心主任 杨九诠;“移步换形”看政策[N];中国教育报;2015年

4 本报记者 王颖春;细化配套措施 确保鼓励民资政策见实效[N];中国证券报;2012年

5 丁锦宏 胡思运 南通大学教育科学学院;重提“方便学生就近入学”[N];中国社会科学报;2012年

6 本报记者 田慕青;奥运将对体育产生巨大影响[N];中国体育报;2001年

7 本报记者 高江虹 吴燕雨 实习记者 王琳;靴子落地 新政或致网络约车市场变局[N];21世纪经济报道;2016年

8 记者 林建伟 江萌 实习生 何强 余洁 张泽溥;武汉城市圈金改,憧憬“流金”岁月[N];湖北日报;2015年

相关博士学位论文 前1条

1 张镧;湖北省高新技术产业政策研究(1978-2012):政策文本分析视角[D];华中科技大学;2014年

相关硕士学位论文 前10条

1 王涛;教育政策文本的分类算法研究与应用[D];安徽大学;2019年

2 朱菲;泰兴市工业生产性服务业发展的政策文本研究[D];南京大学;2019年

3 王坪;政策工具视角下我国扶贫政策文本量化研究[D];郑州大学;2019年

4 王美华;基于文本分析方法的PPP国家政策评价研究[D];天津理工大学;2019年

5 胡志辉;政策工具视角下我国光伏产业发展政策研究[D];华南理工大学;2018年

6 周娅;改革开放以来学前教师政策工具选择研究[D];西南大学;2018年

7 柳利峰;我国“双一流”建设的政策研究[D];郑州大学;2018年

8 田慧坤;PPP模式采购的国内外对比研究[D];合肥工业大学;2018年

9 徐雨晨;军民融合知识产权制度研究:政策文本分析视角[D];大连理工大学;2018年

10 张晶;首都绿色交通政策文本量化研究[D];华北电力大学(北京);2018年



本文编号:2634178

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/xuexiaoguanli/2634178.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50228***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com