面向实体识别的聚类算法
本文关键词:面向实体识别的聚类算法
更多相关文章: 实体识别 聚类 随机游走模型 簇点相似度 数据对象排序
【摘要】:实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.
【作者单位】: 东北大学计算机科学与工程学院;
【关键词】: 实体识别 聚类 随机游走模型 簇点相似度 数据对象排序
【基金】:国家自然科学基金(61472070,61402213) 国家重点基础研究发展计划(973)(2012CB316201) 教育部基本科研业务费项目(N110404010)~~
【分类号】:TP311.13
【正文快照】: 大数据时代,数据的一个重要特点是多样性(variety)[1],描述现实世界同一实体的数据对象在单个或多个数据源中可能以不同的形式重复地出现,由此导致了数据质量的低质化,成为大数据集成、处理、分析和挖掘的瓶颈.实体识别(entity resolution,简称ER)作为数据质量的一个重要方面,
【相似文献】
中国期刊全文数据库 前10条
1 韩毅;蔡建湖;李延来;周利升;;进化算法的计算结果呈现方式[J];计算机工程与应用;2012年05期
2 李美安,刘心松,王征;一种基于循环编码的高性能分布式互斥算法[J];电子学报;2005年08期
3 马亚伟;魏金萍;;并行磁共振成像GRAPPA算法的C++语言实现[J];数字技术与应用;2011年11期
4 黄敏;汪超;;基于C~(++)语言的GRAPPA算法实现[J];软件导刊;2012年04期
5 罗亚中,唐国金;基于面向对象技术的优化算法类库分析与设计[J];航空计算技术;2003年01期
6 杜玉兰;赵磊;;基于C#的HASH算法探析[J];计算机安全;2007年08期
7 王慧,刘宝坤,曹明,刘勇;用C++语言实现神经网络的算法类库[J];微型机与应用;1998年12期
8 何增有,邓胜春,徐晓飞,宋玉福;一种基于垂直分布的非数值数据聚类算法[J];小型微型计算机系统;2003年12期
9 陈湘骥;徐东风;方凤美;;算法类程序设计课程多层次实践教学体系的构建[J];实验室研究与探索;2012年08期
10 于永彦,赵建洋;位图的转向算法及其实现[J];微型电脑应用;2002年02期
中国重要会议论文全文数据库 前1条
1 金彤;李元香;王珑;刘海峰;;智能算法平台中设计模式的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前2条
1 李海波;频繁子结构挖掘算法研究与应用[D];华中科技大学;2011年
2 任间;SSS选星算法研究及小系统软件设计与实现[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前8条
1 黄维;操作系统课程微词典及微题库设计与实现[D];长春工业大学;2016年
2 赵智宝;储层算法类库的研究与实现[D];西安石油大学;2010年
3 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
4 倪栋君;分布式关联规则挖掘若干算法研究与实现[D];浙江工商大学;2009年
5 朱明阳;一种算法类功能的COSMIC度量方法的研究与应用[D];国防科学技术大学;2014年
6 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年
7 施晨骏;甚高频RFID的本振设计和反碰撞算法研究[D];上海交通大学;2008年
8 蒋宇志;话务中心排班问题分阶段优化算法及框架设计[D];吉林大学;2008年
,本文编号:686408
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/686408.html