面向Web社会网络搜索的人名同一性判断
本文选题:社会网络 切入点:向量空间模型 出处:《计算机工程与科学》2012年09期
【摘要】:随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,如何对每个Web进行人名同一性判断是社会网络搜索的关键技术。为了从文本中抽取准确的特征并降低向量维度,本文给出了一个基于C-value和逆文档频率IDF的特征向量权值计算方法;实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断。以搜索引擎的人名检索结果进行测试,说明了基于改进的层次聚类算法能有效地提高人名同一性判断的性能。
[Abstract]:As people become more and more active on the Internet, social behaviors and relationships on the Internet are gradually approaching those of the traditional objective world. And can truly reflect the real relationship between people in the objective world. We can build a real and objective social network through the way of searching from the Internet. Social network search technology and its methods gradually become. For the current research focus, How to judge the identity of each Web is the key technology of social network search. In order to extract accurate features from the text and reduce the vector dimension, In this paper, a method of calculating the weight of feature vector based on C-value and inverse document frequency IDF is presented, and the algorithm of similarity calculation based on cosine angle is realized, and the hierarchical clustering algorithm and partition clustering algorithm in text clustering algorithm are studied. An improved hierarchical clustering algorithm is presented to judge the identity of a person's name. The result of search engine's name retrieval shows that the improved hierarchical clustering algorithm can effectively improve the performance of the judgment of the identity of a person's name.
【作者单位】: 华中科技大学计算机科学与技术学院;
【基金】:国家自然科学基金资助项目(60873030,61173049)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 郎君;秦兵;宋巍;刘龙;刘挺;李生;;基于社会网络的人名检索结果重名消解[J];计算机学报;2009年07期
【共引文献】
相关期刊论文 前10条
1 王梦菊;;复杂网络中社区识别研究[J];硅谷;2012年11期
2 张健沛;李泓波;杨静;白劲波;张乐君;;基于拓扑势的网络社区结点重要度排序算法[J];哈尔滨工程大学学报;2012年06期
3 郑倩冰;朱培栋;朱政坚;;基于在线社会网络的信息存储与搜索机制研究[J];计算机研究与发展;2011年S1期
4 郑倩冰;朱培栋;王永文;徐明;;基于在线社会网络的网络协议增强机制研究[J];计算机科学;2011年06期
5 杨欣欣;李培峰;朱巧明;王英帅;;一种基于改进的K-means算法的人名消歧系统的设计与实现[J];计算机与数字工程;2010年08期
6 施Oz;肖仰华;温文灏;朱乾钱;王恒山;;基于Mapreduce的大规模社会网络提取方法研究[J];计算机应用研究;2011年01期
7 姚宇峰;;一种新的重名消解算法在保险领域中的应用研究[J];计算机应用研究;2012年03期
8 王英帅;李培峰;朱巧明;;一种基于LDA和上下文摘要的Web人名消歧方法[J];计算机应用与软件;2011年07期
9 陈晨;王厚峰;;基于社会网络的跨文本同名消歧[J];中文信息学报;2011年05期
10 李琦;马军;;基于人物相关社区的重名消解研究[J];山东大学学报(理学版);2012年03期
相关会议论文 前1条
1 郑倩冰;朱培栋;朱政坚;;基于在线社会网络的信息存储与搜索机制研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
相关博士学位论文 前1条
1 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
相关硕士学位论文 前8条
1 马二磊;互联网人物信息排歧技术研究[D];哈尔滨工业大学;2010年
2 沈剑平;面向网络人物搜索的中文人名消歧[D];哈尔滨工业大学;2010年
3 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
4 李栋才;基于链接重要性的动态链接预测算法研究[D];华中科技大学;2011年
5 倪吉;中文人名跨文档指代消解研究[D];苏州大学;2011年
6 杜一鸣;社会关系网络构建方法研究[D];河北农业大学;2010年
7 王英帅;Web人名消歧方法的研究与实现[D];苏州大学;2010年
8 肖根胜;改进TFIDF和谱分割的关键词自动抽取方法研究[D];华中师范大学;2012年
【相似文献】
相关期刊论文 前10条
1 章顺瑞;游宏梁;;基于层次聚类算法的中文人名消歧[J];现代图书情报技术;2010年11期
2 颜端武;罗胜阳;成晓;;协同推荐中基于用户-文档矩阵的用户聚类研究[J];现代图书情报技术;2007年03期
3 印国成;;一种基于信息量模型的文本挖掘改进算法[J];微计算机信息;2009年36期
4 王丹;张兆心;宋颖慧;;基于高权重词集的增量聚类算法研究[J];微计算机信息;2011年02期
5 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
6 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
7 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
8 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
9 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
10 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期
相关会议论文 前10条
1 刘丹;潘煜;谈j;;ICT技术对信息扩散网络的影响研究综述[A];第六届(2011)中国管理学年会——技术与创新管理分会场论文集[C];2011年
2 苏海潮;刘心舜;;图书馆社会网络观与嵌入性的应用[A];2008年湘粤澳闽图书馆学(协)会学术研讨会福建省论文汇编[C];2008年
3 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 吴楠楠;史亮;饶金通;姜青山;董槐林;;一种改进的高效层次聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
9 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
相关重要报纸文章 前10条
1 张梦然;天下谁人不识君[N];科技日报;2008年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
3 商报记者 吴辰光;开源软件借低成本抢占市场先机[N];北京商报;2008年
4 美国Gartner公司;CIO如何应对新变革[N];中国计算机报;2007年
5 本报记者 钟伟;四大应用变革策动e-Learning2.0[N];中国教育报;2006年
6 亚瑟·W·科维洛 EMC信息安全事业部总裁 文字整理 本报记者 侯雪莲;信息风险管理的关键在于风险优化[N];中国经营报;2009年
7 谢;BEA展示新的Web 2.0产品[N];电脑商报;2007年
8 中国人民大学信息学院 富丽贞邋陆嘉恒;云计算时代的预演[N];中国计算机报;2008年
9 IDG News Service执行新闻编辑 Marc Ferranti;三大IT领域值得注意[N];计算机世界;2007年
10 徐夕湘;信息技术创造学习新模式[N];学习时报;2007年
相关博士学位论文 前10条
1 万怀宇;社会网络中基于链接的分类问题研究[D];北京交通大学;2012年
2 韩毅;社会网络分析与挖掘的若干关键问题研究[D];国防科学技术大学;2011年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 单伟;企业内部隐性知识流动与转化研究[D];哈尔滨工业大学;2008年
5 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
8 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
9 王晨;结构数据挖掘与处理的若干问题的研究[D];复旦大学;2005年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
相关硕士学位论文 前10条
1 赵秀涛;Web病毒式营销中的挖掘技术研究[D];沈阳航空工业学院;2010年
2 于卓尔;社会网络挖掘算法研究[D];吉林大学;2008年
3 况亮;基于社会网络的电子档案袋系统的设计与实现[D];上海师范大学;2008年
4 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
5 张波;个性化Web搜索系统研究[D];燕山大学;2006年
6 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
7 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
8 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
9 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
10 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
,本文编号:1678770
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1678770.html