面向工业领域的数值信息抽取与应用

发布时间:2022-07-13 15:53
  随着大数据时代的到来,网络中每天产生着大量的数据。无论是企业还是个人,对网络资源的依赖都显得尤为凸出。在工业领域,数值作为一种直观的表达方式,能够反映出工业相关信息,一直被企业和个人所需要。因为目前缺少一种有效的工业领域的数值信息抽取方法,所以本文对其抽取方法进行研究。首先本文对数值信息的表示形式做出改进,将工业领域的数值信息定义为七元组形式(主体、属性、属性值、比较词、比较对象、时间、地点),并将数值信息抽取分为数值信息元素识别和数值信息元素关系识别两个步骤。在数值信息元素识别方面,采取一种阶段性数值信息元素识别方法。即根据各个数值信息元素的特点,在不同阶段采用不同方法对相应的数值信息元素进行识别。并将当前阶段的识别结果输入给下一阶段使用。对于属性值来说,由于其表达比较固定,故采用了基于模板的方法;对于比较词来说,其数量有限,因此本文采用字典和规则相结合的方法进行识别;对于主体、属性则采用了序列标注算法;比较对象的识别则通过规则在之前数值信息元素中进行识别。实验结果表明,该方法融合了规则、Bi-LSTM-CRF模型的优势,对数值信息元素的识别取得了比较满意的效果。在数值信息元素关系识... 

【文章页数】:55 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景与意义
    1.2 工业领域的数值信息
        1.2.1 数值信息
        1.2.2 工业领域数值信息的特征
        1.2.3 工业数值信息的存储形式
    1.3 数值信息抽取的难点
    1.4 本文主要工作
    1.5 论文结构
第2章 相关研究
    2.1 数值信息
        2.1.1 单一数值信息的抽取
        2.1.2 复合数值信息的抽取
    2.2 命名实体识别
        2.2.1 实体识别发展历史
        2.2.2 基于规则的实体识别
        2.2.3 基于统计机器学习的实体识别
        2.2.4 基于深度学习的实体识别
        2.2.5 工业领域的实体识别
    2.3 关系识别
        2.3.1 关系识别任务介绍
        2.3.2 关系识别相关研究
    2.4 本章小结
第3章 数值信息元素识别
    3.1 数值信息元素识别概述
    3.2 基于模板的属性值识别
    3.3 基于字典和规则的比较词识别
    3.4 基于Bi-LSTM-CRF模型的主体、属性识别
        3.4.1 分布式表示
        3.4.2 标注体系
    3.5 比较对象识别
    3.6 实验设计及分析
        3.6.1 实验设置与语料介绍
        3.6.2 评价标准
        3.6.3 实验结果及分析
    3.7 本章小结
第4章 基于规则的数值信息元素关系识别
    4.1 数值信息抽取
    4.2 基于规则的数值信息元素关系识别
    4.3 实验设计及分析
        4.3.1 实验语料
        4.3.2 评价标准
        4.3.3 实验结果与分析
    4.4 本章小结
第5章 系统的设计与实现
    5.1 系统整体架构和总图流程
    5.2 系统模块实现与效果展示
        5.2.1 文本信息的获取和输入模块
        5.2.2 数值信息抽取模块
    5.3 数值信息抽取在数值信息可视化的应用
    5.4 本章小结
结论
参考文献
致谢
攻读硕士期间发表(含录用)的学术论文


【参考文献】:
期刊论文
[1]面向化学资源文本的命名实体识别[J]. 马建红,王立芹,姚爽.  郑州大学学报(理学版). 2018(04)
[2]面向问答的数值信息抽取[J]. 张桂平,张宁,白宇.  郑州大学学报(理学版). 2018(04)
[3]海量法律文书中基于CNN的实体关系抽取技术[J]. 高丹,彭敦陆,刘丛.  小型微型计算机系统. 2018(05)
[4]命名实体识别研究综述[J]. 刘浏,王东波.  情报学报. 2018(03)
[5]使用深度长短时记忆模型对于评价词和评价对象的联合抽取[J]. 沈亚田,黄萱菁,曹均阔.  中文信息学报. 2018(02)
[6]微博客蕴含交通事件信息抽取的自动标注方法[J]. 仇培元,张恒才,余丽,陆锋.  中文信息学报. 2017(02)
[7]MBNER:面向生物医学领域的多种实体识别系统[J]. 杨娅,杨志豪,林鸿飞,宫本东,王健.  中文信息学报. 2016(01)
[8]基于先秦语料库的古汉语地名自动识别模型构建研究[J]. 黄水清,王东波,何琳.  图书情报工作. 2015(12)
[9]中文文本中时间信息解析方法[J]. 张春菊,张雪英,李明,王曙.  地理与地理信息科学. 2014(06)
[10]煤制橡胶产业发展新情况[J].   苏盐科技. 2012(03)

硕士论文
[1]面向数值问题的答案抽取与生成[D]. 张宁.沈阳航空航天大学 2018
[2]基于web的工业产品知识图谱构建及应用[D]. 邵元新.沈阳航空航天大学 2017
[3]基于非结构化文档数据的抽取与分析系统的信息抽取[D]. 霍焰.天津大学 2012
[4]数值信息的抽取方法研究[D]. 毋菲.山西大学 2010
[5]基于CRF的中文命名实体识别研究[D]. 史海峰.苏州大学 2010



本文编号:3660326

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3660326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户722d4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com