融合词嵌入表示特征的实体关系抽取方法研究
本文选题:关系抽取 + 词嵌入表示 ; 参考:《数据分析与知识发现》2017年09期
【摘要】:【目的】为解决已有方法中单词特征表示不具有语义信息这一问题,对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征,利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验,并选出代表全部特征的有效特征子集。【结果】使用全部特征时,决策树算法的准确率达到0.48,关系抽取效果最佳,Member-Collection(E_2,E_1)类型关系的F_1值达到0.70,特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高,以及词向量训练及方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性,词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。
[Abstract]:[objective] in order to solve the problem that word feature representation does not have semantic information in existing methods, the function of word embedding representation feature in relation extraction is discussed. [methods] the level of word embedding representation is considered. Three types of features, lexical level and grammatical level, are compared by using naive Bayes model, decision tree model and random forest model, and the effective feature subsets representing all the features are selected. [results] when using all the features, The accuracy of decision tree algorithm is 0.48, and the F-1 value of relationship extraction is 0.70. The result of feature ranking shows that dependency relationship is helpful for relation extraction. [limitation] for small sample size and complicated relation type, the FSP _ 1 value of the relation is 0.70, and the result of feature ranking shows that the dependency relation is helpful to the relation extraction. The recognition effect needs to be improved. The training of word vector and the related parameters of the method need to be further optimized. [conclusion] experiments show that the selected three types of features are effective, and the level feature of word embedding representation can play an important role in the problem of entity relation extraction.
【作者单位】: 中国科学院文献情报中心;中国科学院大学;中国科学院武汉文献情报中心;
【基金】:ISTIC-EBSCO文献大数据发现服务联合实验室基金项目“基于clique子团聚类的文本主题识别方法研究”的研究成果之一
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 邓擘;郑彦宁;;使用种子抽取实体关系模式[J];计算机与数字工程;2009年09期
2 邓擘;郑彦宁;傅继彬;;汉语实体关系模式的自动获取研究[J];计算机科学;2010年02期
3 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
4 朱姗;;基于规则和本体的实体关系抽取系统研究[J];情报杂志;2010年S2期
5 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
6 朱鸿宇;刘瑰;陈左宁;唐福华;;实体关系识别中长距离依赖问题的研究[J];小型微型计算机系统;2008年02期
7 周利娟;林鸿飞;罗文华;;基于实体关系的犯罪网络识别机制[J];计算机应用研究;2011年03期
8 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
9 李小红;钱龙华;;基于自举的弱指导中文实体关系抽取研究[J];高科技与产业化;2010年09期
10 董静;孙乐;冯元勇;黄瑞红;;中文实体关系抽取中的特征选择研究[J];中文信息学报;2007年04期
相关会议论文 前3条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
相关博士学位论文 前5条
1 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年
2 郭喜跃;面向开放领域文本的实体关系抽取[D];华中师范大学;2016年
3 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
4 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 施琦;无监督中文实体关系抽取研究[D];中国地质大学(北京);2015年
2 林家欣;基于多源知识的地理选择题答题方法研究[D];哈尔滨工业大学;2015年
3 刘绍毓;实体关系抽取关键技术研究[D];解放军信息工程大学;2015年
4 胡春艳;中文开放式实体关系抽取技术研究[D];东北大学;2014年
5 程文亮;中文企业知识图谱构建与分析[D];华东师范大学;2016年
6 徐力;面向Web2.0的二元人物关系抽取研究[D];华东交通大学;2016年
7 孔兵;中文文本实体关系抽取方法研究[D];哈尔滨工业大学;2016年
8 刘q,
本文编号:1960581
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1960581.html