双语影视知识图谱的构建研究
本文选题:影视本体 切入点:双语 出处:《北京大学学报(自然科学版)》2016年01期 论文类型:期刊论文
【摘要】:提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO),将各个影视数据源对齐到BMO,以保持异构数据源的语义描述一致性。在知识链接方面,在充分挖掘和利用领域特征的基础上,采用基于Word2Vec和TFIDF两种向量模型的实体相似度计算方法,使相似度特征增加一倍,大大提升了模型的链接效果。在实体匹配方面,提出基于相似度传播算法的实体匹配算法,并利用影视数据源之间的内在联系,克服了跨语言实体之间计算相似度的语言障碍。实验结果表明,当阈值取到0.75以上时,实体匹配的准确率都能达到90%左右。此外,还建立了影视知识图谱共享平台,并提供开放性的数据访问和查询接口。
[Abstract]:A bilingual film knowledge mapping (BMKG) of the construction process. Through the method of semi automated construction of bilingual Film Ontology (BMO), the video data source is aligned to the BMO, in order to maintain the semantic heterogeneous data source description consistency. In the knowledge link, based on fully utilizing the field characteristics. The methods of calculating the similarity of Word2Vec and TFIDF two based on vector model, the similarity is doubled, greatly enhance the model link effect. The matching entity similarity propagation algorithm is proposed based on entity matching algorithm, and the intrinsic link between the video source data, to overcome the cross language between entity computing language the obstacle of similarity. The experimental results show that when the threshold is more than 0.75, the accuracy rate of matching entity could reach about 90%. In addition, the film also established a knowledge map sharing platform, It also provides open data access and query interfaces.
【作者单位】: 清华大学计算机科学与技术系知识工程实验室;
【基金】:国家重点基础研究发展计划(2014CB340504) 国家自然科学基金委员会与法国国家科研署双边合作协议(61261130588) 清华大学自主科研项目(20131089256) 国家科技支撑计划(2014BAK04B00) THU-NUS下一代搜索联合研究中心项目资助
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 赵军;刘康;周光有;蔡黎;;开放式文本信息抽取[J];中文信息学报;2011年06期
【共引文献】
相关期刊论文 前10条
1 曾道建;来斯惟;张元哲;刘康;赵军;;面向非结构化文本的开放式实体属性抽取[J];江西师范大学学报(自然科学版);2013年03期
2 贾真;杨宇飞;何大可;刘胜久;尹红风;;面向中文网络百科的属性和属性值抽取[J];北京大学学报(自然科学版);2014年01期
3 朱敏;贾真;左玲;吴安峻;陈方正;柏玉;;中文微博实体链接研究[J];北京大学学报(自然科学版);2014年01期
4 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期
5 李畅;;信息抽取和实体消歧[J];福建电脑;2014年11期
6 余丽;陆锋;张恒才;;网络文本蕴涵地理信息抽取:研究进展与展望[J];地球信息科学学报;2015年02期
7 饶齐;王裴岩;张桂平;;面向中文专利SAO结构抽取的文本特征比较研究[J];北京大学学报(自然科学版);2015年02期
8 陈晨;王厚峰;;中文跨文本人名同名同指消解研究[J];江西师范大学学报(自然科学版);2015年02期
9 唐伟;洪宇;冯艳卉;姚建民;朱巧明;;网页中商品“属性—值”关系的自动抽取方法研究[J];中文信息学报;2013年01期
10 肖升;何炎祥;;事件超图模型及类型识别[J];中文信息学报;2013年01期
相关博士学位论文 前2条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 贾真;面向中文网络百科的本体学习与知识获取研究[D];西南交通大学;2014年
【二级参考文献】
相关期刊论文 前1条
1 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
【相似文献】
相关期刊论文 前10条
1 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期
2 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期
3 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期
4 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
5 秦玉平;杨兴凯;;基于案例推理的区间属性相似度研究[J];辽宁师范大学学报(自然科学版);2006年04期
6 蒋鹏;;基于本体的应急案例相似度算法研究[J];南昌高专学报;2009年03期
7 何亚;;词语相似度算法的分析与改进[J];硅谷;2011年24期
8 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期
9 焦鹏;唐见兵;查亚兵;;仿真可信度评估中相似度方法的改进及其应用[J];系统仿真学报;2007年12期
10 姜毅;乐庆玲;;一种基于兴趣相似度的学习社区算法[J];电脑知识与技术(学术交流);2007年16期
相关会议论文 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 王健;刘衍珩;焦玉;;VANETs信任传播建模[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
相关重要报纸文章 前1条
1 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年
相关博士学位论文 前10条
1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年
2 张明西;信息网络中的相似度搜索问题研究[D];复旦大学;2013年
3 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
4 朱娜斐;基于RTT相似度的网络延迟估测理论和方法[D];北京工业大学;2012年
5 钱鹏飞;基于模糊相似度的异构本体映射、合并及校验方法的研究[D];上海交通大学;2008年
6 马海平;基于概率生成模型的相似度建模技术研究及应用[D];中国科学技术大学;2013年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
9 姜雅文;复杂网络社区发现若干问题研究[D];北京交通大学;2014年
10 张磊;个性化推荐和搜索中若干关键问题的研究[D];北京邮电大学;2009年
相关硕士学位论文 前10条
1 杨巧;基于改进相似度的社会网络链接预测研究[D];华南理工大学;2015年
2 张宁;某于《知网》的词语相似度优化算法[D];昆明理工大学;2015年
3 沈迤淳;歌曲中相似片段的检测及其应用[D];复旦大学;2014年
4 梁霄;社交网络中的社区聚集研究[D];上海交通大学;2015年
5 王魁;在线社交中基于微博的好友推荐系统设计与实现[D];电子科技大学;2015年
6 洪耀停;基于共同作者图的合作者推荐系统[D];浙江大学;2015年
7 褚立超;基于相似度评分模型的人员识别方法研究[D];广西大学;2015年
8 谭夏;基于软集相似度理论的医学诊断系统[D];西北师范大学;2014年
9 裴运亮;基于切词和语义的中文相似度研究与应用[D];电子科技大学;2011年
10 李磊;虚拟教学实验方案相似度的分析和度量[D];华中科技大学;2009年
,本文编号:1644913
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1644913.html