基于维基百科分类体系的多语海洋叙词表构建
本文关键词:基于维基百科分类体系的多语海洋叙词表构建
【摘要】:自古以来,海洋的重要性就不言而喻,一方面它作为生命的摇篮孕育了生命,另一方面它作为资源的宝库蕴含了十分丰富的资源。但是海洋是浩瀚而神秘的,作为海洋大国的我国,海岸线就长达18万公里,我们只有运用科学的调查方法和规范的管理手段才能逐渐揭开海洋的神秘面纱。随着经济、科技的发展以及经费和人力的不断投入,我国的大洋科学考察事业得到长足发展。一方面加强了国际间的合作:我国不仅积极参与国际合作调查项目,还积极组织建立国际调查项目,吸引了多个国家组织的参与;另一方面我国自主开展的大洋科学考察航次越来越多,使用的科学实验设备也越来越先进,获取了大量的珍贵的样品及数据。基于以上现状,如何科学规范的管理这些科研数据,对海洋事业的发展尤为重要。本文以海洋数据管理为出发点,致力于研究以维基百科为语义资源来构建多语海洋叙词表的问题,以期实现海洋叙词的科学有效管理,为其他海洋数据的使用和管理提供便利。主要工作包括:1.研究维基百科的组织特点,分析维基百科作为语义资源的可行性。2.研究叙词表的编制标准及微观结构,形成维基百科链接关系与叙词表微观结构的映射关系。3.研究当前利用维基百科来计算语义相关度的算法,并根据这些算法的特点对其分类。4.研究维基百科转储数据的特点,使用相关算法和工具抽取并保存维基百科转储数据中的相关信息。5.研究支持向量分类机的特点,并结合一定的语义相关度算法实现相关信息的分类。
【关键词】:维基百科 叙词表 海洋 多语
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 1 绪论10-16
- 1.1 研究背景和意义10-12
- 1.2 研究现状及可行性分析12-15
- 1.2.1 维基百科作为语料库的可行性分析12-13
- 1.2.2 网络信息抽取研究现状13-15
- 1.3 论文主要研究内容15
- 1.4 论文研究框架15-16
- 2 维基百科和叙词表16-30
- 2.1 维基百科16-23
- 2.1.1 维基百科条目的编辑规则18-19
- 2.1.2 维基百科中的特殊条目19-21
- 2.1.3 维基百科中的超链接21-23
- 2.2 叙词表23-30
- 2.2.1 叙词表编制发展概况23-25
- 2.2.2 叙词表编制标准和词间关系25-28
- 2.2.3 维基百科词间关系与叙词表词间关系的映射28-30
- 3 基于维基百科的语义相关度算法研究30-37
- 3.1 基于统计学的语义相关度算法30-33
- 3.1.1 词汇共现法30-32
- 3.1.2 链接共现法32-33
- 3.2 基于维基百科路径的语义相关度算法33-37
- 4 维基百科信息抽取算法设计与实现37-47
- 4.1 维基百科转储数据37-40
- 4.1.1 维基百科命名空间37-39
- 4.1.2 条目在XML中的存储格式39-40
- 4.2 信息抽取步骤及相关技术40-43
- 4.2.1 信息抽取步骤40-42
- 4.2.2 相关技术及工具42-43
- 4.3 数据库设计及抽取结果43-47
- 4.3.1 数据库设计43-45
- 4.3.2 抽取结果45-47
- 5 信息分类及实验结果分析47-58
- 5.1 支持向量分类机原理47-48
- 5.2 信息分类处理过程48-55
- 5.2.1 信息预处理48-49
- 5.2.2 选取分类特征项49-53
- 5.2.3 选择训练集53-55
- 5.3 信息分类实验结果及分析55-58
- 6 总结与展望58-60
- 6.1 全文总结58-59
- 6.2 未来的工作方向59-60
- 参考文献60-62
- 致谢62-63
- 个人简历63
- 在校期间研究成果63
【相似文献】
中国期刊全文数据库 前10条
1 朱玉强;;维基百科:分享知识的自由百科全书[J];农业图书情报学刊;2006年01期
2 罗伯特·马休斯;;维基百科是怎样“炼”成的?[J];青年记者;2006年03期
3 ;维基百科有专业化趋势,音乐维基“喵客”异军突起[J];计算机与网络;2006年23期
4 尹开国;;自由人的自由联合:维基百科评介[J];图书情报工作;2007年02期
5 真真;;调查显示:维基百科受到欢迎[J];国外社会科学;2007年06期
6 王丹丹;;维基百科自组织模式下质量保证机制分析[J];情报科学;2009年05期
7 王丹丹;;维基百科在学术领域的应用分析[J];图书馆建设;2009年05期
8 孙颖;;维基百科生日快乐[J];互联网天地;2009年05期
9 徐争荣;;构建电影专业维基百科的设想[J];图书情报工作;2009年S1期
10 何筠红;;在线共享的自由百科全书——维基百科[J];新世纪图书馆;2006年04期
中国重要会议论文全文数据库 前3条
1 孟新萍;王会珍;张俐;;维基百科人物属性自动获取方法研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张苇如;孙乐;韩先培;;基于维基百科和模式聚类的实体关系抽取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 谢科;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于维基百科层次分类框架的主题推荐系统的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 佚名;维基百科遭遇成长烦恼[N];计算机世界;2005年
2 罗添;维基百科模式难在华复制[N];北京商报;2007年
3 潘海东 朱春雷 梅春;四原因引爆维基百科[N];计算机世界;2006年
4 王希怡;维基百科 硬伤不治必落下神坛[N];广州日报;2013年
5 本报记者 张贵勇;维基百科:知识因草根而改变[N];中国教育报;2009年
6 宿亮;维基百科“关门”“抗议坏法案”[N];新华每日电讯;2012年
7 记者 钱平广;美国反盗版法争议升级 维基百科黑屏24小时抗议[N];第一财经日报;2012年
8 电脑虎;知识共享的平台:WiKi[N];中国电脑教育报;2004年
9 彭致;维基百科九月首推印刷版[N];中国新闻出版报;2008年
10 付蓓;“维客”:你的网页大家编[N];中国税务报;2005年
中国博士学位论文全文数据库 前3条
1 肖奎;维基百科大数据的知识挖掘与管理方法研究[D];武汉大学;2013年
2 赵静;发挥用户的兴趣及资源从而提升用户在维基百科上的贡献[D];中国科学技术大学;2011年
3 李峗;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 朱苏阳;自指导社会关系网络构建研究[D];苏州大学;2015年
2 王忠振;基于深度学习算法的领域词义关联研究[D];国防科学技术大学;2014年
3 景雪芹;基于维基百科分类体系的多语海洋叙词表构建[D];中国海洋大学;2015年
4 崔政;维基百科:精神交往理论研究的新进路[D];河北大学;2008年
5 刘喜梅;从维基百科看互联网语境下的知识生产与传播[D];湖南师范大学;2013年
6 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
7 盛志超;基于维基百科的语义比较[D];复旦大学;2011年
8 伍成志;基于维基百科的知识查找系统的研究与实现[D];华南理工大学;2012年
9 马鸣卉;维基百科的网络结构及可信分析[D];电子科技大学;2010年
10 常天舒;关于维基百科内容质量的研究[D];大连理工大学;2013年
,本文编号:812172
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/812172.html