语义网图中文本相似度方法的应用研究
本文关键词:语义网图中文本相似度方法的应用研究,,由笔耕文化传播整理发布。
【摘要】:随着大数据时代的到来和教育水平的不断提高,重复文档的数量也正与日俱增,文档和论文相似度查重也越发迫在眉睫。文档的相似度计量主要是通过进行转换,将其转化成距离、角度或弯曲度等来度量,从而实现较好的计量效果。余弦相似度,一种计量文档相似度的常用方法,能较好的反应文档的相似程度。但其本身对数量和比重不敏感,这给相似度度量带来了不少麻烦。据2008年不完全统计,在Intern et上有大约40%的网络资源跟其他的网络资源是重复的。重复资源或者近似重复的资源增加了搜索引擎的索引数量,并且对检索结果也产生了不小的影响。近似重复检测问题在信息检索领域已经是家喻户晓了。在这里希望改进相似度判别算法以及改进爬虫来实现避免对重复资源的爬取。网络资源和网络图表在一定程度上比纯文本信息要复杂的多,在一个文本文件中,语句顺序可以被转换成含义,而网络资源不可以被转换成含义,最终,相似语义网络资源将拥有复杂的不同语句顺序。同样的,在基于文本的近似重复检测中,内容的含义查重并不是太大的问题,但是语义网络文档,这个问题很突出,假设有两个不同的语义网络文档,如果计算它们的演绎闭包很可能是一样的。在语义网络图片中,除了语句顺序之外,同时需要验证空节点。空节点是不具有URI的匿名资源,并且没有文字含义。1998年提出万维网的互联网专家蒂姆·伯纳斯-李提出了语义网络的概念,它现在已经发展成为自然语言理解和认知科学领域研究的一个概念,用它来表达那些复杂概念及其它们之间的关系。语义网的表示形式是一个有向图,其中点代表概念,边代表这些概念之间的语义关系,这样来形成一个由节点和弧组成的语义网络描述图。蒂姆·伯纳斯-李提出了另一个关于语义网的概念,那就是我们现在家喻户晓的万维网(World Wide Web),语义网络只是其相关的基础理论。语义网相比于传统的互联网具有较好的语义判别和交互性。两个语义网络文档或者网络语图是相似的,描述它们的不同之处在检索、更新、版本控制等方面有很大的作用。在本文中,描述了一些列的文本相似度度量方法,用来表达它们之间的关系,并且计量它们的不同。本研究通过对语义网图进行标准化处理、简化处理、相似度度量以及分类等相关的操作来进行语义网图相似度的判别。同时,为了区分两个语义网图之间的相似度,定义了一个变量来表示它们之间的版本关系。这个变量通过对其元组进行添加和删除来保持两者的平衡,并且此变量是通过判断RDF图表序列化,而不仅仅根据文档的URI来判定两者之间的相似度。最后,通过实验验证了提出了语义网相似度度量具有较好的实验效果。但是由于时间比较仓促所以难免存在其他的一些问题,像稳定性等有待我们后期继续完善。
【关键词】:相似度 余弦相似度 语义网络 语义网图 RDF
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要8-10
- Abstract10-12
- 第一章 绪论12-18
- 1.1 研究背景12-14
- 1.2 国内外研究现状14-15
- 1.3 本文的主要工作内容15-17
- 1.4 论文的组织结构17-18
- 第二章 文本相似度及本体论18-28
- 2.1 文本相似度算法18-23
- 2.2 本体论和概念相似度23-25
- 2.3 本体版本25
- 2.4 语义网络文档的变化计算25-28
- 第三章 语义网络图相似度和变量增量28-39
- 3.1 问题的提出及处理28-35
- 3.1.1 标准表示29-32
- 3.1.2 简化形式32-34
- 3.1.3 相似度度量34
- 3.1.4 分类34-35
- 3.2 计算两个版本之间的向量δ35-39
- 3.2.1 原始变量δ35-36
- 3.2.2 演绎闭包的向量δ36
- 3.2.3 本体论的类类别变量δ36-38
- 3.2.4 检测类重命名的启发式方法38-39
- 第四章 实验及结果39-45
- 4.1 实验39
- 4.2 成对探测相似度39-44
- 4.2.1 检测文字内容的区别40-41
- 4.2.2 检测基本URI的区别41-43
- 4.2.3 检测版本关系43-44
- 4.3 变量δ的正确性44-45
- 第五章 总结与展望45-47
- 5.1 总结45
- 5.2 展望45-47
- 5.2.1 稳定性45
- 5.2.2 变量δ准确性45-46
- 5.2.3 预测两个版本之间的变化方向46-47
- 参考文献47-51
- 致谢51-52
- 攻读学位期间发表的学术论文列表52-53
- 附件53
【相似文献】
中国期刊全文数据库 前10条
1 孙运传,别荣芳;语义网络求精方法研究[J];北京师范大学学报(自然科学版);2005年01期
2 李洁;丁颖;;语义网、语义网格和语义网络[J];计算机与现代化;2007年07期
3 熊骁;;语义网的初步探讨[J];硅谷;2009年24期
4 安波;;语义网的研究与应用[J];电脑编程技巧与维护;2010年14期
5 张昕 ,孙建新;科学研究与语义网[J];国外科技动态;2003年03期
6 王亚章;语义网,下一代互联网的神经[J];中国计算机用户;2003年07期
7 韦华;;语义网络助推互联网[J];微电脑世界;2006年08期
8 陈卫红;朱佳鸣;;语义网的研究及其在生物医学中的应用[J];医学信息;2007年07期
9 张东伟;赵津津;李鹏;;基于语义网的知识管理研究[J];计算机与信息技术;2008年03期
10 赵宏伟;张海龙;臧雪柏;;表象式语义网络研究[J];北京工业大学学报;2009年08期
中国重要会议论文全文数据库 前2条
1 唐璐;张永光;付雪;;语义网络的结构:我们怎样学习语义知识(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
2 张旭洁;夏幼明;刘冠晓;宋亚林;;基于规则方法的汉语到语义网络语言的转换研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前2条
1 北京 高守;互联网之父钟情语义网[N];电脑报;2002年
2 华新;你要的是哪个苹果?语义智能搜索时代来临[N];经理日报;2007年
中国博士学位论文全文数据库 前2条
1 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
2 史斌;面向语义网的语义搜索引擎关键技术研究[D];北京工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 金爱明;语义网络对初中英语词汇教学的影响研究[D];沈阳师范大学;2014年
2 李明;语义网图中文本相似度方法的应用研究[D];山东大学;2015年
3 熊逵;基于SPAROL的语义网数据查询系统的设计与实现[D];浙江大学;2015年
4 任彬;一种特定领域的语义网模型[D];吉林大学;2004年
5 康树鹏;面向语义网的自然语言查询接口研究[D];哈尔滨工业大学;2014年
6 张敏;基于语义网的学术论文检索的研究与实现[D];沈阳工业大学;2011年
7 杜鹃;面向长春市地理信息系统的语义网模型研究[D];吉林大学;2005年
8 马晓峰;基于语义网络的病理诊断案例表示及不确定性研究[D];合肥工业大学;2006年
9 张海龙;表象式语义网络研究[D];吉林大学;2007年
10 张红;语义网中的本体推理及其应用研究[D];吉林大学;2004年
本文关键词:语义网图中文本相似度方法的应用研究,由笔耕文化传播整理发布。
本文编号:385181
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/385181.html