当前位置:主页 > 教育论文 > 教改课改论文 >

信息化教育领域的Web信息抽取技术研究

发布时间:2019-08-28 11:45
【摘要】: 计算机技术和互联网(Internet)的迅猛发展,使Web发展成为一个全球的、巨大的、分布和共享的信息空间,Web作为一个庞大的资源库,给人们的学习、生活和工作带来了巨大的便利。然而面对Web上的海量信息,人们却陷入了“数据丰富,知识贫乏”的尴尬境地。由于目前的Web数据大多以HTML的形式出现,使得应用程序无法直接获取Web上的信息。Web信息抽取技术正是在这一背景下应运而生。 本文分析了一些典型的信息抽取系统技术特点,并探讨了在信息化教育中,从学习者的需求出发,抽取个性化的服务信息。本文实现了一个基于文档结构树的个性化信息抽取系统。本系统主要分为两个部分,抽取规则的定义以及抽取规则的执行。在抽取规则的定义阶段,首先将获取的HTML结构的网页进行规范化处理,转换为格式规范、语义清晰的XML文件,生成对应文档的DOM树,然后由用户指定待抽取信息的位置以及对应的目的表的模式,最后根据这些信息生成抽取规则。在抽取规则执行阶段,系统根据用户定义的抽取规则抽取Web数据并将其加载到指定位置的目的表中。
【图文】:

示意图,信息抽取,过程,示意图


报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构数据。广义上信息抽取的过程如图2.1所示。已有的结构化数据、介抽取出的结构化数据厂//本1尹工文一l日日﨎Web网页/厂/对抽取出的信塾报告/J析分息…为义图2.1信息抽取过程示意图信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。

文档,示例,尾声


XML不仅可以表达数据的内容,同时可以特定的应用,开发人员可以创建特定的数据类型,通过使可以在不同的系统之间交换异构的结构化数据,使用XM构化数据的集成等。XML数据模型与半结构化数据之间许多半结构化数据模型的研究可以容易地应用到XML数XML的语法结构式良好的XML文档由三个部分组成:一个可选的序言(p(body),由一个和多个元素组成,其形式为一个可能包含字选的尾声(ePilog),其内容包括注释、处理指令(proeessingi/或紧跟元素树后面的空白。言和尾声部分都是可选的,下面我们就主要以图3.2中的。
【学位授予单位】:天津师范大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:G434

【参考文献】

相关期刊论文 前10条

1 李龙;教育技术学科的定义体系——一论教育技术学科的理论与实践[J];电化教育研究;2003年09期

2 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期

3 ;中国科学院学部委员罗沛霖同志在计算机工程与应用学会成立大会上的讲话[J];计算机工程与应用;1986年01期

4 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期

5 朱明,王军,王俊普;基于多层模式的多记录网页信息抽取方法[J];计算机工程;2001年09期

6 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

7 杨文柱,李智玲,徐林昊,李天柱;基于信息抽取的Web查询系统的设计与实现[J];计算机应用;2003年02期

8 王敬普;林亚平;周顺先;岳文;;基于包装器模型的文本信息抽取[J];计算机应用;2006年03期

9 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期

10 何典,宋中山;基于Web挖掘的个性化网络教育研究[J];计算机与现代化;2005年05期



本文编号:2530130

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/jgkg/2530130.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a58d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com