基于XML的Web信息抽取技术研究
发布时间:2019-08-20 08:44
【摘要】: 互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的信息。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。 Intemet具有的海量、异构、动态变化等特性使Web信息抽取(IE,InformationExtration)不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足,有必要对Web信息抽取问题作进一步研究。 本文使用标准的XML技术来解决网页信息抽取问题,开发出了一个专业化的诈骗事件信息抽取系统(CEIES,Cheating Event Information Extraction System)。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页,并将HTML文档转换成符合XML语法的XHTML文档,然后通过XML强大的数据查询能力对构建的XML文档库进行查询,并利用DOM树将产生的抽取规则存入规则库中。根据格语法表示的关键动词用法,抽取句子的局部信息,用知识图表示。通过知识图的合并,对局部抽取信息进行综合,最后,把得到的抽取结果存储在数据库中,从而完成用户所需的数据的抽取。 由于CEIES事是一个基于自然语言理解的方式的专业化Web信息抽取系统,可以从任何类型网站上的抽取诈骗事件信息。因而具有良好的可扩展性和适应性。经测试,本信息抽取系统的准确率和召回率都达到了较满意的水平。
【图文】:
过记录用户标记的信息,采用“系统默认”或“用户定制”的方式生成抽取规则,实现对类似页面的信息抽取(这里的“类似页面”的解释如定义1)。Lixto的系统实施图如图2一3所示。蘸赢兹‘‘一氯赢二如_…:-瞬瞬鹭……图2一 3Lixto系统实施图5.基于W亡b查询的信息抽取由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和感兴趣信
利用网络蜘蛛 (Webspider),在hitemct上的查找网站并抓取相关网页;其次,将认尾 bSPider搜索到的web页面依次过滤掉网页中的标记,将文本内容保存并进行分词和词性标注(图4一l);然后,应用基于自然语言理解的信息抽取模块将文本信息进行命名实体识别,,将结构化信息存入数据库(图4一2);最后,将用户所关注的信息清楚地显示在界面上(图4一3)。愉出到让)必与来翻文件夹相同O文件夹:生;乡代拜
本文编号:2528506
【图文】:
过记录用户标记的信息,采用“系统默认”或“用户定制”的方式生成抽取规则,实现对类似页面的信息抽取(这里的“类似页面”的解释如定义1)。Lixto的系统实施图如图2一3所示。蘸赢兹‘‘一氯赢二如_…:-瞬瞬鹭……图2一 3Lixto系统实施图5.基于W亡b查询的信息抽取由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和感兴趣信
利用网络蜘蛛 (Webspider),在hitemct上的查找网站并抓取相关网页;其次,将认尾 bSPider搜索到的web页面依次过滤掉网页中的标记,将文本内容保存并进行分词和词性标注(图4一l);然后,应用基于自然语言理解的信息抽取模块将文本信息进行命名实体识别,,将结构化信息存入数据库(图4一2);最后,将用户所关注的信息清楚地显示在界面上(图4一3)。愉出到让)必与来翻文件夹相同O文件夹:生;乡代拜
本文编号:2528506
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2528506.html