基于百科和垂直网站的景点属性关系抽取研究

发布时间：2021-02-21 01:45

　　随着信息技术的更新迭代,互联网的信息量正以指数级速度增长,面对日益增多的文本数据,如何从其中提取出用户感兴趣的信息已经成为近几年研究的重点,信息抽取技术应运而生。属性抽取技术作为信息抽取技术的一个子领域,也是构建知识图谱必不可少的一部分。属性抽取是将非结构化数据转化为结构化数据的一种途径,属性抽取技术日趋成熟,但针对特定领域属性抽取算法性能仍有提升空间。本文主要针对内蒙古旅游领域文本做属性抽取工作,旨在能够发现特定领域中实体和属性值之间的关系,并将抽取结果转化为供后续研究的结构化数据。本文的重点研究内容如下:（1）构建内蒙古旅游领域语料库。使用Scrapy爬虫框架,获取百科类网站和垂直网站的入口URL,对文本数据进行爬取。配置Brat工具对爬取的语料进行人工标注,将其转换为BIO标注模式。（2）确定旅游领域语料中需要抽取的属性。将属性抽取的任务转化为序列标注任务,分别构建基于CRF和神经网络两种模型。（3）提出基于篇章级架构的神经网络模型。该模型利用BLSTM捕获文本的上下文信息和时序信息,利用CRF输出最优标签序列。训练每篇文档的文档级向量,并通过实验验证模型架构的可行性。（4）研究...

【文章来源】：内蒙古大学内蒙古自治区 211工程院校

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

无向图线性链结构

工作流程图,工作流程图,网站

图 3.1 Scrapy 工作流程图Figure 3.1 The work flow of Scrapy料来源有百科网站和垂直网站，百科网站和垂直网站的爬虫方式略有不同体爬虫流程如图 3.2 所示。

工作流程图,工作流程图,网站,流程

图 3.1 Scrapy 工作流程图Figure 3.1 The work flow of Scrapy源有百科网站和垂直网站，百科网站和垂直网站的爬虫方式略有不虫流程如图 3.2 所示。

【参考文献】：
博士论文
[1]蒙古文命名实体识别研究[D]. 王炜华.内蒙古大学 2018
[2]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012

硕士论文
[1]基于CRF模型的银行交易短信信息数据标注研究[D]. 郭得庆.上海师范大学 2018
[2]基于微信公众平台的文本情感分析研究[D]. 任高山.南昌航空大学 2018
[3]基于多任务融合模型的用户属性推断[D]. 赵宇.太原理工大学 2018
[4]肝癌领域精准医学语料标注[D]. 杨帅.军事科学院 2018
[5]基于神经网络的英文序列标注方法研究[D]. 彭宗徽.北京邮电大学 2018
[6]基于语义特征和监督学习的广告评论识别方法[D]. 林雪.浙江大学 2018
[7]中文人物属性槽填充技术的研究与实现[D]. 冷亚玢.北京邮电大学 2018
[8]基于语义分析的实体属性抽取方法研究[D]. 王潇斌.苏州大学 2017
[9]基于深度学习的属性抽取技术研究[D]. 蒋焕剑.浙江大学 2017
[10]中文人物属性抽取技术的研究与实现[D]. 张凯伦.北京邮电大学 2016

本文编号：3043661

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3043661.html

上一篇：基于深度学习的行人检测与行人再识别技术研究及应用
下一篇：复杂场景下的多视角三维场景定位研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|