中文微博实体链接研究
本文关键词: 微博实体链接 改进的拼音编辑距离 后缀词表匹配法 实体消歧 出处:《北京大学学报(自然科学版)》2014年01期 论文类型:期刊论文
【摘要】:针对2013年CCF自然语言处理与中文计算会议(NLPCC2013)中文微博实体链接的任务,使用CCF提供的新浪微博数据作为训练和测试数据,利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具,提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法,提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF中文微博实体链接评测任务中正确结果的准确率为0.8838,在10个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。
[Abstract]:Aiming at the task of CCF Natural language processing (NLPCC2013) Chinese Weibo physical link in 2013, the data of Sina Weibo provided by CCF is used as training and testing data. This paper presents a method of entity linking by using the Chinese word segmentation platform of Yebao, Southwest Jiaotong University, as a natural language preprocessing tool. The method applies the improved Pinyin Editing distance algorithm and the suffix table matching method. A disambiguation method combining entity clustering disambiguation with similar entity disambiguation based on Baidu Encyclopedia frequency is proposed. In 2013, the accuracy of correct results in the CCF Weibo Chinese entity link evaluation task was 0.8838. . The result shows that the method is effective and can adapt to the noise in the text.
【作者单位】: 西南交通大学信息科学技术学院;
【基金】:国家自然科学基金(61170111,61202043,61262058) 中国科学院自动化所复杂系统管理与控制重点实验室开放课题(20110102) 中央高校基本科研业务费专项基金(SWJTU11ZT08)资助
【分类号】:TP391.1;TP393.092
【正文快照】: 中文微博实体链接是指给定一条微博中的实体指称,确定这些指称在给定知识库中的目标实体,实体链接在计算机理解微博的意义以及文本挖掘等方面有重要影响。根据新浪微博2012年的统计数据,在这一年中其注册用户总数达到5.03亿,全年增长率为73%,用户每日发微博的数量不计其数。
【参考文献】
相关期刊论文 前6条
1 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
2 缪建明;张全;;一种基于概念关联式的词义消岐方法[J];计算机科学;2010年01期
3 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
4 赵军;刘康;周光有;蔡黎;;开放式文本信息抽取[J];中文信息学报;2011年06期
5 杨欣欣;李培峰;朱巧明;;基于网页文本依存特征的人名消歧[J];计算机工程;2012年19期
6 曹犟;邬晓钧;夏云庆;郑方;;基于拼音索引的中文模糊匹配算法[J];清华大学学报(自然科学版);2009年S1期
【共引文献】
相关期刊论文 前10条
1 陶佳燕;李银红;石东源;覃松涛;郑发林;蒙亮;;EMS与继电保护定值校核系统实时数据匹配新方法[J];电力系统自动化;2012年10期
2 冷冰涛;梁维谦;董保帅;原道德;;基于连续识别的嵌入式孤立词识别系统[J];电声技术;2011年11期
3 曾道建;来斯惟;张元哲;刘康;赵军;;面向非结构化文本的开放式实体属性抽取[J];江西师范大学学报(自然科学版);2013年03期
4 贾真;杨宇飞;何大可;刘胜久;尹红风;;面向中文网络百科的属性和属性值抽取[J];北京大学学报(自然科学版);2014年01期
5 罗文华;;非结构化数据处理分析在电子数据取证中的应用[J];警察技术;2010年03期
6 冯鲸华;古丽拉·阿东别克;玛依来·哈帕尔;;基于N-gram语言模型的哈萨克文机构名识别[J];计算机工程与应用;2010年31期
7 李静;罗文华;林鸿飞;;自然语言处理技术在网络案情分析系统中的应用[J];计算机工程与应用;2012年03期
8 刁兴春;谭明超;曹建军;;一种融合多种编辑距离的字符串相似度计算方法[J];计算机应用研究;2010年12期
9 彭文惠;吴小刚;蒋华;;基于柔性字符串匹配的校园BBS过滤系统[J];计算机与现代化;2011年02期
10 赵军;刘康;周光有;蔡黎;;开放式文本信息抽取[J];中文信息学报;2011年06期
相关会议论文 前5条
1 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 钟茂生;;基于词语形式标记的句际语义关系自动识别方法[A];第五届全国信息检索学术会议论文集[C];2009年
3 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
4 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艾斯卡尔·肉孜;宗成庆;姑丽加玛丽·麦麦提艾力;热合木·马合木提;艾斯卡尔·艾木都拉;;基于条件随机场的维吾尔人名识别方法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
相关博士学位论文 前6条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
3 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
4 陆前;英、汉跨语言话题检测与跟踪技术研究[D];中央民族大学;2013年
5 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
6 伍大勇;搜索引擎中命名实体查询处理相关技术研究[D];哈尔滨工业大学;2012年
相关硕士学位论文 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
6 罗永刚;基金信息与基金投资风险的定量关系研究[D];华东师范大学;2011年
7 尹义方;野营房产品设计与成本核算系统研究[D];东北石油大学;2011年
8 何世柱;文本分类和聚类若干模型的研究[D];江西师范大学;2011年
9 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
10 马二磊;互联网人物信息排歧技术研究[D];哈尔滨工业大学;2010年
【二级参考文献】
相关期刊论文 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 王广正;王喜凤;;基于知网语义相关度计算的词义消歧方法[J];安徽工业大学学报(自然科学版);2008年01期
3 陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期
4 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
5 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
8 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
9 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
10 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
相关会议论文 前1条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
相关硕士学位论文 前4条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
4 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
【相似文献】
相关期刊论文 前10条
1 陈年长;;人工智能将影响未来工厂的主要设计思想[J];世界科技研究与发展;1989年01期
2 余国建,杨惠英 ,吴子乔 ,张健 ,胡代槐 ,李育福;在袖珍机上开发中医专家系统的方法与技术[J];大自然探索;1993年01期
3 吴伏家,王世伟;圆孔拉刀智能CAD系统的研究[J];新技术新工艺;1995年05期
4 郑金华,肖松青,彭贵华;一种实用的知识库模型[J];湘潭大学自然科学学报;1999年03期
5 刘玉葆,孟志青;战略投资DSS知识库管理系统的设计[J];湘潭大学自然科学学报;1999年03期
6 李伟,刘海峰,靳红;药物研究开发知识库"的建立[J];河北科技大学学报;2002年04期
7 刘佳,许锋,李虎,王宛山;网络化集成制造平台下个性化定制系统研究[J];机械制造;2005年08期
8 陈正铭;邓雪梅;;Web知识挖掘与计算机网络[J];韶关学院学报;2006年09期
9 王巍;闫新庆;李文锋;陈定方;;一种在关系型数据库中存储OWL对象的方法[J];微计算机信息;2006年30期
10 席生长;胡宏涛;;信息检索技术在中石油勘探与生产分公司门户内的应用研究[J];福建电脑;2008年01期
相关会议论文 前10条
1 胡志光;梁川;常爱玲;;电除尘器帮助系统软件的开发研究[A];第十二届中国电除尘学术会议论文集[C];2007年
2 张远芳;张有仁;;PDMS2001:一个基于并行计算的数据挖掘系统[A];2002中国控制与决策学术年会论文集[C];2002年
3 钱海忠;武芳;孙建东;葛磊;朱强;王家耀;;自动制图综合链理论与技术模型[A];中国测绘学会九届四次理事会暨2008年学术年会论文集[C];2008年
4 张亚琼;韩江洪;魏振春;;一种改进的DES自动机模型知识表示和快速知识提取方法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
5 高阳;李一智;刘洪生;杨玲玲;;技术改造投资决策支持系统研究。[A];1993中国控制与决策学术年会论文集[C];1993年
6 刘旭花;孟祥增;刘俊晓;吴鹏飞;;一种基于知识库的图像对象自动识别方法[A];第十三届全国图象图形学学术会议论文集[C];2006年
7 杜向阳;张吉林;;基于语义本体知识库技术的主题分类方法在舆情监测实践中的应用[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
8 陈再旺;宋蓓;;人工智能在医疗诊断系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
9 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
10 周强;王俊俊;陈丽欧;;构建大规模的汉语事件知识库[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前10条
1 胡红军;软件业应注重搭建行业知识库[N];经济日报;2007年
2 ;开天辟地第一回[N];计算机世界;2002年
3 李广录;BakBone NetVault TrueCDP可恢复到任意时间点[N];中国计算机报;2008年
4 北京市科学技术委员会信息处 姜广智 阿孜古丽;行业信息化知识库构建先进的行业信息化平台[N];中国计算机报;2006年
5 本报记者 吴蔚;东软建健康管理知识库[N];中国计算机报;2010年
6 凌曼文;小公司也可上线知识库[N];中国计算机报;2007年
7 高雪娟;PLM将汽车上市周期缩短十个月[N];中国计算机报;2007年
8 北京市科学技术委员会信息处 姜广智 阿孜古丽;催生软件产业发展轨迹的新拐点[N];中国计算机报;2006年
9 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
10 吴玉征;中国软件业应走行业应用之路[N];计算机世界;2007年
相关博士学位论文 前10条
1 黄莎莎;语义万维网中本体与规则上的非经典推理[D];湖南大学;2012年
2 刘忠途;基于知识的CAD系统若干关键技术研究[D];华中科技大学;2005年
3 李荣;基于知识的装配序列规划关键技术研究[D];哈尔滨工业大学;2009年
4 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
5 高明霞;问答式OWL知识检索技术[D];北京工业大学;2008年
6 杜震洪;近海环境地物认知模型与智能服务聚合研究[D];浙江大学;2010年
7 谭武征;基于知识的概念创新设计系统关键技术的研究[D];上海交通大学;2008年
8 陈兴蜀;应用区域边界的安全体系结构及实用模型研究[D];四川大学;2004年
9 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
10 李如仁;公众参与式地理信息系统的理论与实践[D];辽宁工程技术大学;2007年
相关硕士学位论文 前10条
1 周美希;汉语语句组块及消歧的研究与实现[D];电子科技大学;2005年
2 石林;基于对象的Web图像检索研究[D];山东师范大学;2005年
3 郭宝恩;计算机辅助QFD概念设计专家系统的开发研究[D];天津科技大学;2005年
4 叶红;面向对象及构件技术在专家系统开发中的应用研究[D];安徽大学;2005年
5 罗云;青少年焦虑抑郁单光子成像数据挖掘方法研究[D];大连理工大学;2006年
6 袁利锋;以财务数据为基础的专家系统的研究与开发[D];华北电力大学(北京);2006年
7 杨楠;基于知识的人工骨三维结构仿生设计[D];西北工业大学;2007年
8 陆翠敏;纳米材料数据库系统的研制与开发[D];河北理工学院;2003年
9 张爱华;办公自动化系统中知识管理的研究与实现[D];大连理工大学;2007年
10 曲晓棠;基于多Agent的网络教学系统的研究与应用[D];苏州大学;2007年
,本文编号:1448885
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1448885.html