基于NLP的专业领域文档语义标注方法研究与实现

发布时间:2021-03-05 01:11
  随着计算机的普及和信息社会的高速发展,网络上的资源数量以几何级数递增。在当今的知识的表现形式中,文档表现仍然是一个主流方式,包括书籍以及计算机上各种格式的文件。如何以一种快速高效的方式从这些大量的非结构化的文档中获取自己需要的知识,已经成为了当下研究的热点之一。随着语义网相关概念的兴起,人们对于知识的获取的研究不单单只是针对于文档本身,而已经开始转向于文档内容的语义。现有的语义标注方法有很多,但是很多方法都依赖于现有的本体库(WordNet等),并且只用到一般性的概念进行标注,缺乏领域支持。针对于现有的语义标注方法的不足,本文以电影领域为研究对象,提出了一种基于自然语言处理的领域语义标注方法并实现了原型系统。该方法主要分为两大部分:第一部分是基于自然语言处理方法的领域本体库的构建,第二部分是基于自建领域本体库的语义标注。领域本体库的构建主要分为语义的模型构建、三元组抽取、规范化表述形成三个部分。语义模型的构建主要是根据语料构建领域本体库,为后面所有的工作提供支持;在三元组抽取的过程中,主要用到了基于依存句法分析与基于规则的方法相结合的方法——在依存句法分析的基础之上,结合需求,指定模式... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:83 页

【学位级别】:硕士

【部分图文】:

基于NLP的专业领域文档语义标注方法研究与实现


影评中关键词词频率

电影,基本模型,本体


图 3-6 电影相关本体基本模型图通过图 3-6 可以清楚的观察到类与类之间的关系。经过 3.2.1 和 3.2.2 两小节中的模型构建以及三元组关系抽取分析后,根据 OWL-Lite 规范,将电影《西虹市首富》对象(部分)转化生成符合 RDF 的 XML 文件进行存储,如下面代码所示:电影存储规范展示:<owl:ObjectProperty rdf:id = “hasActor”>#属性、共用<owl:ObjectProperty rdf:id = “hasLeadRole”><owl:DataProperty rdf:id=”film_name”>…<FilmObject rdf:about = “西虹市首富”>#具体实例<has_Basic>#基本语义<filmName rdf: datatype = "&xsd;string”>西虹市首富</filmName><length rdf: datatype = "&xsd;string”>片长</length>

网络爬虫


: factory. getOWLObjectPropertyAssertionAxiom, factory. getOWLClassAssertionAxio对象属性和实例关联,类与实例关联: manager.saveOntology(onto,IRI.creat(new filename));//生成本地本体文件通过上述的代码,将 Result.list 的数据打印出来,并生成 OWL 本体描述文9 领域语义标注原型系统效果展示整个语义标注的核心是后台设计与实现,即数据爬取模块,数据预处理模域本体构建模块,相似度计算模块,标注生成模块。此外,利用简单的前台各个模块功能进行展示。9.1 网络爬虫爬虫主要是数据集的收集,主要是对电影的基本信息以及语料进行获取,本信息中一个概念,对应一个值。对剧情简介以及影评语料抽取后放在另一库表里面并用外键 film_id 与之关联,爬虫运行的具体结果如图 4-9 所示:

【参考文献】:
期刊论文
[1]基于自主学习规则的中文物种描述文本的语义标注研究[J]. 段宇锋,黑珍珍,鞠菲,崔红.  现代图书情报技术. 2012(05)
[2]基于本体的文档语义标注改进方法[J]. 陈叶旺,李文,彭鑫,赵文耘.  东南大学学报(自然科学版). 2009(06)
[3]网络标注的主要方法概述[J]. 张瑜,李景,孟宪学,苏晓路.  图书情报工作. 2008(01)
[4]顶层本体比较及评估[J]. 贾君枝,刘艳玲.  情报理论与实践. 2007(03)
[5]人工智能发展综述[J]. 田金萍.  科技广场. 2007(01)
[6]中文概念词典的结构[J]. 于江生,俞士汶.  中文信息学报. 2002(04)

博士论文
[1]面向领域网页的语义标注若干问题研究[D]. 荆涛.吉林大学 2011

硕士论文
[1]结合WordNet的领域语义标注研究[D]. 熊荣东.重庆大学 2011



本文编号:3064291

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3064291.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户453fb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com