数据驱动的细粒度中文属性对齐方法
[Abstract]:In order to improve the accuracy of attribute relationship recognition among Chinese open source data sets, a data-driven fine-grained alignment method is proposed to identify the synonyms, inclusions and correlations among attributes by using the extension of attributes and the domain of definition. Methods firstly, the data types of attributes are determined by statistical theory, and the method of calculating the similarity of attributes is given. On this basis, attribute relationship recognition is modeled as a multi-classification problem, and effective features are extracted to describe different relationships and to be used in the construction of stochastic forest model. The experimental results show that the accuracy of attribute data type discrimination in this method is 94.60.The F1 values of synonym, inclusion and correlation recognition are 71.37.3% and 59.9%, respectively. Compared with traditional methods which only focus on synonymous attributes fine-grained attribute alignment not only improves the accuracy of synonymous attribute recognition but also recognizes mutually contained and related attributes which proves its effectiveness in Chinese open source data sets.
【作者单位】: 中科院空间信息处理与应用系统技术重点实验室;中国科学院电子学研究所;中国科学院大学;
【基金】:国家高技术研究发展计划(863计划)资助项目(2012AA011005)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张爱平;张小红;;属性值为语言区间的多属性决策方法[J];计算机工程与应用;2011年07期
2 崔勇;高岩;王福利;王子敬;;模糊信息系统属性值的重要性度量[J];河南理工大学学报(自然科学版);2007年04期
3 李中华,施丽华,李玉茜;属性的增量赋值[J];计算机工程;1993年01期
4 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
5 关欣;衣晓;何友;周一宇;;一种区间属性值离散化的新方法[J];宇航学报;2009年03期
6 张艳芹;张虹;杨习贝;;区间属性值信息系统的不确定性度量[J];计算机应用与软件;2009年01期
7 程显毅;施Oz;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
8 林宏康;范成贤;史开泉;;倒向P-推理与属性剩余发现-应用[J];计算机科学;2011年10期
9 坐看云起;《天使》人物属性攻略[J];网络与信息;2002年11期
10 洪帆,饶双宜,段素娟;基于属性的权限—角色分配模型[J];计算机应用;2004年S2期
相关会议论文 前2条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 张亮;胡学钢;;多层次属性值下概念格的动态转化[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
相关重要报纸文章 前4条
1 重庆 韩涛;中望CAD中块属性的制作[N];电脑报;2004年
2 7Star;教你做RM压缩程序[N];电脑报;2003年
3 北京邮电大学 张剑;通过DOM操作数据(下)[N];计算机世界;2001年
4 ;查找替换的技巧[N];中国电脑教育报;2001年
相关硕士学位论文 前10条
1 张丽芬;一种基于混合QOS的服务选择方法[D];华中师范大学;2015年
2 于芳芳;基于属性的权限访问控制研究与应用[D];河北工业大学;2015年
3 高乙童;大数据时效性关键技术的研究[D];哈尔滨工业大学;2016年
4 陈祖军;基于伪近邻及区间距离的不完备数据聚类方法[D];大连理工大学;2016年
5 赵爽;基于敏感属性值语义的个性化匿名方法研究[D];天津财经大学;2015年
6 徐海堂;属性证书及应用研究[D];中国人民解放军信息工程大学;2005年
7 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
8 张秀丽;符号属性值的相似度学习及属性重要性研究[D];河北大学;2011年
9 张朝胜;领域本体概念实例、属性及属性值提取研究[D];昆明理工大学;2011年
10 雷玉霞;基于本体的军事知识联通[D];中国科学院研究生院(软件研究所);2002年
,本文编号:2325361
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2325361.html