当前位置:主页 > 教育论文 > 学科教育论文 >

信息抽取技术在移动学习资源建设中的应用研究

发布时间:2022-01-11 22:37
  在网络教学资源极为丰富的今天,从网页中自动抽取多媒体类及文本类教学资源切片,建立移动学习资源库,既充分提高了现有资源的利用率,也为现有电子书包等移动学习终端提供了丰富的资源来源。文章结合移动学习微内容设计要求,根据多媒体HTML标签特点,及文本类资源递归表达特征,提出了基于信息抽取的移动学习资源片段自动抽取的技术方案,该方案可以实时自动地从Web页面中抽取图片、音视频等多媒体资源切片及填空、选择题等移动学习资源切片。实验结果表明,方案整体准确率达85.4%,召回率达79.0%,时间性能上,可以在113.9小时内获取186,133个移动学习资源切片。该自动化的移动学习资源抽取技术方案具有较高的实用性,也是现有大数据技术在资源建设方面的应用之一。 

【文章来源】:电化教育研究. 2018,39(03)北大核心CSSCI

【文章页数】:7 页

【部分图文】:

信息抽取技术在移动学习资源建设中的应用研究


Web 教学资源微型化技术方案

行为模式,递归,标签


?2.多媒体资源抽取课件、图片、音频、视频等资源在文件实体上相对独立,所以可以直接根据其在网页HTML源码中的标签、属性等,利用相应的正则表达式进行抽取,非文本类多媒体资源相应的HTML5标签与属性特征见表1。早期版本的HTML4标签、属性与此类似,这里不再赘述。表1非文本类切片资源抽取标签与表1相对应的HTML多媒体标签的模式匹配,可以用正则表达式来表示,见表2。表2基于正则表达式的多媒体资源抽取方法举例(三)长文本分割行业文档都有其规律性特征,该特征可以概括为用户的递归行为模式[23],如图2所示。图2用户的递归行为模式教案(知识点,知识目标,情感目标,过程与方法,教学重难点,教学内容,来源站点……)填空(知识点,题干,答案,来源站点……)选择题(知识点,题干,选项A,选项B,选项C,选项D,来源站点……)文献(知识点,正文,来源站点……)(2)资源类型抽取规则标签属性HTML源码举例课件ppt、swf、gsp等类型超级链接ahref、alt<ahref='./uploads/temp-late/sibianxing-bianhua.gsp'>几何画板演示平行四边形的变化</a>图片img类标签src所指向图片网址imgsrc、alt<imgalt="荷塘月色图片"src="/pic/lotus.jpg"/>音频音频标签audiosrc、title<audiosrc="/i/horse.wav"controls="controls"Title="Horse">视频视频标签videosrc、title<videosrc="/i/bear.ogg"controls="controls"title="bear">正则表达式说明匹配内容<h1.*?</h1>网页中标题,如:<h1>教育资源</h1><.+?>HTML标签,如:<img>、<audio>、<video>等标签(href|src)\s*=\s*[“’][^”’#]+[“’]网页中的超链接,如:href=“http://baidu.com”92

实验软件,环境,实验结果,基础教育资源


蟹指睢⑽⑿突?脑欤??⒎岣坏囊贫??习资源库。实验方案既要验证各环节算法的可靠性,还需对方案的数据采集性能和资源切片、提取的整体性能进行分析,具体包括数据采集、网页解析与多媒体资源提取和文本类资源分割、微型化的时间性能,以及相应的准确率和召回率。(一)实验环境研究中,实验硬件环境是8台PC机建立的Hadoop大数据集群,PC的配置是Core22.53GHzCPU+4GB内存,其中1台配置为NameNode,另外7台配置为DataNode,DataNode同时承担HBase非结构化数据存储和Map/Reduce分布式数据处理任务,软件环境架构如图3所示。图3中,DataNode承担基础教育资源网站表层数据采集、网页解析与多媒体资源提娶文本资源切片等任务。数据采集工具是在Nutch开源工具基础上,结合主题相关度计算进行了二次开发,该工具采用插件的方式解决了JavaScript脚本解析和AJAX动态脚本问题,与Map/Reduce分布式计算可以很好地集成为一体。图3实验软件环境(二)实验结果实验种子网站是全国31个盛自治区、直辖市教育厅(委员会)网站,不包括香港、澳门、台湾。经过广度优先搜索,共提取出基础教育资源相关网站28756个,如:查字典语文网(https://yuwen.chazidian.com)、当知备课网(http://beike.dangzhi.com)、7C教育资源网(http://www.7cxk.net)等。再从这些基础教育资源网站进行深度优先搜索,得到53,186,246个URL,经过主题(主题词共21660个词条[16],包括Fd、Fm、Ff等特征词条)相关性过滤,与基础教育资源直接相关的URL共有354,679个,并在此基础上,从网页中抽取多媒体资源和文本类教学资源进行分割后,得到的资源片段总数为186,133个,累计用时113.9(78.5+35.4)小时(约4.7天),通过开放测试和封闭测试,得到的实验结果见?

【参考文献】:
期刊论文
[1]基于Heritrix与Lucene的地震专业搜索引擎设计[J]. 孙静,李亚龙,万杰.  地震地磁观测与研究. 2016(05)
[2]基于Heritrix的视频垂直搜索引擎[J]. 张林.  计算机系统应用. 2016(09)
[3]基于知识库和主题爬虫的南海舆情实时监测研究[J]. 丁晟春,龚思兰,周文杰,王曰芬.  情报杂志. 2016(05)
[4]电子课本与电子书包标准规范、关键技术及应用创新的研究[J]. 吴永和,何超,杨瑛,马晓玲,余云涛,刘晓丹,祝智庭.  华东师范大学学报(自然科学版). 2014(02)
[5]模糊规则算法在教育信息分类中的应用[J]. 梁文超,徐朝军,沈书生.  现代图书情报技术. 2011(01)
[6]微型学习理论指导下移动学习材料设计的研究[J]. 穆肃,闫振中.  现代远距离教育. 2010(02)
[7]基于分块和统计相结合的新闻正文抽取[J]. 李烯,徐朝军.  情报理论与实践. 2010(01)
[8]网络课程资源自动量化评价研究[J]. 王满,徐朝军.  现代图书情报技术. 2010(01)
[9]Edupage:一个基于本体的基础教育网站搜索引擎[J]. 曹卓文,杨晓江.  中国远程教育. 2008(05)
[10]基于微格式的信息组织与处理框架[J]. 李书宁.  图书情报工作. 2007(08)



本文编号:3583573

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/xuekejiaoyulunwen/3583573.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c033f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com