当前位置:主页 > 科技论文 > 软件论文 >

本体与条件随机场结合的涉农商品名称抽取与类别标注

发布时间:2019-08-09 10:22
【摘要】:传统的基于条件随机场(CRF)的信息抽取方法在进行涉农商品名称抽取与类别标注时,需要大量的训练语料,标注工作量大,且抽取精度不高。为解决该问题,提出了一种基于农业本体与CRF相结合的涉农商品名称抽取与类别标注方法,将涉农商品名称的自动抽取与分类看作序列标注的任务。首先是原始数据的分词处理和词、词性、地理属性、本体概念特征选择;然后,采用改进的拟牛顿算法训练CRF模型参数,用维特比算法实现解码,共完成4组对比实验,识别出7种类别,并将CRF和隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)通过实验进行比较;最后,将CRF应用于农产品供求趋势分析。结合合适的特征模板,本体概念的加入使CRF开放测试的总体准确率提高10.20%,召回率提高59.78%,F值提高37.17%,证明了本体与CRF结合方法在涉农商品名称和类别抽取中的可行性和有效性,可以促进农产品供求对接。
【图文】:

本体概念,层次树,农业


箪芈矶鉲煞蚰P?MaximumEntropyMarkovModel,MEMM)进行比较,同时用于农产品供求趋势的分析。表明农业本体与CRF相结合进行涉农商品名称抽取与类别标注方法的有效性。1农业本体与CRF1.1农业本体本体是关于概念体系的明确的、形式化的规范说明[13],农业本体是专业性的本体,表示的知识都是针对农业学科领域,提供了关于该领域中概念的词表以及概念之间的关系[14-15]。概念层次是本体的骨架,主要反映概念之间的父类子类关系。文中使用阿里巴巴农业(https://www.1688.com/)概念层次体系,结构如图1所示,该分类体系有4个层次,包括218个叶子节点,目前已有超过170万个农业供求信息映射到该分类体系中,因此基本可以涵盖各种农产品供求类型,具有很强的覆盖性。利用本体中的父子类概念知识表示词所对应的概念,赋予词以语义。生鲜水果作为苹果、草莓的父类概念,可用生鲜水果描述苹果、草莓;种植业作为生鲜水果、农作物种子种苗的父类概念,使用种植业来描述生鲜水果、农作物种子种苗,也可使用种植业来描述苹果、草莓、蔬菜种子种苗等,进一步增强知识泛化能力。图1农业本体概念层次树Fig.1Concepthierarchiesofagriculturalontology1.2条件随机场CRF是用来标注和划分序列结构数据的概率化的无向图模型[4],具有表达元素长距离依赖性和交叠性特征的能力,在模型中可包含众多领域知识[16]。1.2.1CRF模型对于给定的输出标记序列y=(y1,y2,…,yn)和输入观察序列x=(x1,x2,…,xn),CRF通过定义条件概念p(y|x,λ)来描述模型。图2表示CRF链式结构。图2CRF链式结构Fig.2CRFchainstructureCRF定义的条件概率公式为:p(y|x,λ)=1Z(x)exp(∑n

链式结构


,也可使用种植业来描述苹果、草莓、蔬菜种子种苗等,进一步增强知识泛化能力。图1农业本体概念层次树Fig.1Concepthierarchiesofagriculturalontology1.2条件随机场CRF是用来标注和划分序列结构数据的概率化的无向图模型[4],具有表达元素长距离依赖性和交叠性特征的能力,在模型中可包含众多领域知识[16]。1.2.1CRF模型对于给定的输出标记序列y=(y1,y2,…,yn)和输入观察序列x=(x1,x2,…,xn),CRF通过定义条件概念p(y|x,λ)来描述模型。图2表示CRF链式结构。图2CRF链式结构Fig.2CRFchainstructureCRF定义的条件概率公式为:p(y|x,λ)=1Z(x)exp(∑ni=1∑jλj·fj(yi-1,yi,x,i))(1)其中:x为观察序列;y为标记序列;λ=(λ1,λ2,…,λn)为权重向量;λj为特征函数的权重;fj(yi-1,yi,x,i)为对应整个观察序列x,标记位于i和i-1的特征函数;分母Z(x)为归一化因子(保证所有可能的状态序列概率之和为1),公式如下:Z(x)=∑yexp(∑ni=1∑jλj·fj(yi-1,,yi,x,i))(2)1.2.2参数训练CRF的参数训练过程是在训练数据集上基于对数似然函数的最大化进行[17-18],设一个标注过的数据序列集D={(x1,y1),(x2,y2),…,(xn,yn)},ps

本文编号:2524736

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2524736.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户97e94***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com