基于百科和垂直网站的景点属性关系抽取研究

发布时间:2021-02-21 01:45
  随着信息技术的更新迭代,互联网的信息量正以指数级速度增长,面对日益增多的文本数据,如何从其中提取出用户感兴趣的信息已经成为近几年研究的重点,信息抽取技术应运而生。属性抽取技术作为信息抽取技术的一个子领域,也是构建知识图谱必不可少的一部分。属性抽取是将非结构化数据转化为结构化数据的一种途径,属性抽取技术日趋成熟,但针对特定领域属性抽取算法性能仍有提升空间。本文主要针对内蒙古旅游领域文本做属性抽取工作,旨在能够发现特定领域中实体和属性值之间的关系,并将抽取结果转化为供后续研究的结构化数据。本文的重点研究内容如下:(1)构建内蒙古旅游领域语料库。使用Scrapy爬虫框架,获取百科类网站和垂直网站的入口URL,对文本数据进行爬取。配置Brat工具对爬取的语料进行人工标注,将其转换为BIO标注模式。(2)确定旅游领域语料中需要抽取的属性。将属性抽取的任务转化为序列标注任务,分别构建基于CRF和神经网络两种模型。(3)提出基于篇章级架构的神经网络模型。该模型利用BLSTM捕获文本的上下文信息和时序信息,利用CRF输出最优标签序列。训练每篇文档的文档级向量,并通过实验验证模型架构的可行性。(4)研究... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于百科和垂直网站的景点属性关系抽取研究


无向图线性链结构

工作流程图,工作流程图,网站


图 3.1 Scrapy 工作流程图Figure 3.1 The work flow of Scrapy料来源有百科网站和垂直网站,百科网站和垂直网站的爬虫方式略有不同体爬虫流程如图 3.2 所示。

工作流程图,工作流程图,网站,流程


图 3.1 Scrapy 工作流程图Figure 3.1 The work flow of Scrapy源有百科网站和垂直网站,百科网站和垂直网站的爬虫方式略有不虫流程如图 3.2 所示。

【参考文献】:
博士论文
[1]蒙古文命名实体识别研究[D]. 王炜华.内蒙古大学 2018
[2]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012

硕士论文
[1]基于CRF模型的银行交易短信信息数据标注研究[D]. 郭得庆.上海师范大学 2018
[2]基于微信公众平台的文本情感分析研究[D]. 任高山.南昌航空大学 2018
[3]基于多任务融合模型的用户属性推断[D]. 赵宇.太原理工大学 2018
[4]肝癌领域精准医学语料标注[D]. 杨帅.军事科学院 2018
[5]基于神经网络的英文序列标注方法研究[D]. 彭宗徽.北京邮电大学 2018
[6]基于语义特征和监督学习的广告评论识别方法[D]. 林雪.浙江大学 2018
[7]中文人物属性槽填充技术的研究与实现[D]. 冷亚玢.北京邮电大学 2018
[8]基于语义分析的实体属性抽取方法研究[D]. 王潇斌.苏州大学 2017
[9]基于深度学习的属性抽取技术研究[D]. 蒋焕剑.浙江大学 2017
[10]中文人物属性抽取技术的研究与实现[D]. 张凯伦.北京邮电大学 2016



本文编号:3043661

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3043661.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8494***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com