当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于层次聚类和网页关系的人名消歧

发布时间:2019-01-26 09:57
【摘要】:随着社会信息化的不断加快,从海量信息中快速获取所需要的信息变得越来越重要。人物检索是最常见的检索之一,而通用搜索引擎的返回结果往往是同名的不同人物实体相关网页的混合,而且网页的数量可能高达数十亿。从这个庞大的网页集合中寻找某个特定人物实体的信息是一项非常困难的工作。 通常的解决办法是对搜索引擎人名检索的返回结果进行再处理。将网页的集合变成实体的集合,而实体的数量要远远小于网页的数量。实现的方式是将搜索引擎返回的网页聚类到若干个集合中,相关同一人物实体的网页都在同一集合中,不同集合中的网页相关不同的人物实体。由于在聚类时不知道所有网页中包含的不同人物实体的数目,一般采用层次聚类的方法对搜索引擎返回的网页进行再次聚类。层次聚类过程中,每次合并相似度最大的两个网页或子聚类以形成更大的聚类。子聚类相似度的计算最终仍依赖于两个子聚类中包含网页的相似度的计算。网页相似度通常采用重叠系数来衡量,即先将网页采用特征向量的形式表示,再计算两个特征向量相同分量数相对于总分量数的比例。从某个网页中抽取出的特征往往是该网页相关的人物实体全部特征的一部分。这会导致相关同一人物实体的两个网页特征向量的重叠系数可能为零。在早期的重名消解研究中,从每个网页中抽取出的特征一般是强特征,即能较好区分不同人物实体的特征。而从每个网页中抽取出的强特征数量有限,这会使相关同一人物实体的两个网页特征向量重叠系数为零的可能性增大,导致网页聚类结果的召回率不够高。从每个网页中抽取出的弱特征的数量往往比较多,利用这些弱特征,可以降低相关同一人物实体两个网页特征向量相似度为零的可能性,但弱特征的引入会明显降低网页聚类结果的精确率。两阶段重名消解算法在第一阶段使用强特征进行聚类,第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类,较好地利用了强特征和弱特征各自的特性。 本文针对上面提出的问题,结合两阶段重名消解算法的思想,在重名消解研究工作上,有以下两个方面的贡献 首先,对于每个网页,提取多种类型的强特征,增加相关同一人物实体两网页特征向量具有相同分量的可能性。在第一阶段采用多种强特征的组合进行聚类,在第二阶段使用弱特征对第一阶段的聚类结果进行再次聚类。实验结果表明,多种强特征的组合在不明显降低聚类结果精确率的前提下提高了聚类结果的召回率。 其次,网页中的人名根据在网页中的共现关系形成一个人名关系网络,该人名关系网络中存在若干社区,我们以每个网页中抽取出的人名作为种子人名,基于Bootstrapping算法使用Google搜索引擎发现该网页中人名相关社区的其它人名。用发现的人名扩展原有的人名集合,并应用到两阶段重名消解算法中,实验结果表明,进行相关社区发现的两阶段重名消解算法在第一阶段和第二阶段取得的效果都要高于原有的两阶段重名消解算法。
[Abstract]:......
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 卢峰;Frontpage 98的网页编辑[J];电脑技术;1999年03期

2 ;Web Painter 3.0功能完整的网页绘图及动画处理软件[J];电子出版;1999年01期

3 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期

4 ;网上先生——教您上网(四) 上网第四站[J];市场与电脑;1999年07期

5 ;站点扫描[J];计算机周刊;1999年17期

6 云起;信息人——你有网页吗[J];计算机周刊;1999年22期

7 李新 ,杨章远 ,许志宏;在网页中实现自定义滚动条[J];电脑编程技巧与维护;1999年10期

8 范建平;;给你的网页安一个门铃[J];软件;2000年06期

9 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期

10 蔡丽萍;大学图书馆网页设计述评[J];山东图书馆季刊;2001年04期

相关会议论文 前10条

1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年

4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年

6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年

7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年

8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年

10 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年

相关重要报纸文章 前10条

1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年

2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年

3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年

4 路人甲;在网页上圈圈点点[N];电脑报;2004年

5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年

6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年

7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年

8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年

9 鸣涧;网页的编辑[N];中国电脑教育报;2002年

10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年

相关博士学位论文 前10条

1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

2 李玲娟;数据挖掘技术在入侵检测系统中的应用研究[D];苏州大学;2008年

3 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年

4 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年

5 陈晓飞;基于骨架的目标表示和识别技术研究[D];国防科学技术大学;2004年

6 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年

7 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年

8 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年

9 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年

10 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年

2 万里春;代理服务器的网页预取研究[D];西华大学;2006年

3 张剑;复杂网络中的层次社团发现与应用[D];北京邮电大学;2011年

4 孙琼;我国房地产企业流动性指标体系研究[D];中南大学;2009年

5 瞿俊;基于重叠度的层次聚类算法研究及其应用[D];厦门大学;2007年

6 吴伟;联机手写蒙古文字识别技术的研究与实现[D];内蒙古大学;2005年

7 周晓昕;基于多属性特征的时态近似周期挖掘和应用[D];浙江工业大学;2008年

8 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年

9 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年

10 李海波;基于通信行为挖掘的犯罪网络分析技术研究与应用[D];上海交通大学;2007年



本文编号:2415376

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2415376.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0b4f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com