当前位置:主页 > 科技论文 > 搜索引擎论文 >

科技知识对象的语义模式研究

发布时间:2018-04-21 14:22

  本文选题:科技知识对象 + 语义网 ; 参考:《吉林大学》2013年博士论文


【摘要】:随着互联网进入大数据时代,大量非结构化数据和半结构化数据严重影响着搜索引擎的搜索效率,同时也使读者淹没在浩瀚无边的信息海洋中。在科技领域,阅读文献、撰写论文、发表成果,是研究人员职业生涯的重要组成部分。因此,如何应对当今科技文献的指数级增长,如何提高科技知识的搜索效率和阅读效率,如何为用户提供更为高效的检索、发布、共享平台,与科学界发展息息相关。 网络出版可以追溯到上世纪90年代初期,尽管在这20年中网络技术得到了飞速发展,包括搜索引擎的出现、社会网络(Web2.0)的普及、语义网技术的成长,科技出版并没有因此发生实质性的变革。大部分人仍旧停留在简单的网络下载论文,本机阅读;用Word或LaTex撰写论文,然后email或上传方式发送给编辑和出版商审阅出版的时代。传统的科技出版模式和科技出版物本身,已经无法适应日益发展的Web2.0和大数据环境。匮乏语义信息、非结构化数据、单一阅读模式,都极大制约着读者对于科技知识理解、传播、重用的效率和效果。 本文通过对当前科技出版技术的发展现状进行深入调查,结合各种元数据标准、设计模式理论、Rhetorical Structure理论以及语义技术,提出了一组用于管理科技知识对象的表示模型、元数据标准、语义结构和标注语言,进而对科技知识对象的语义模式进行了深入研究。本文的主要贡献包括: 1.综述了元数据理论、论文表示模型、网络科技出版的研究现状及发展趋势。 综述了Dublin Core元数据标准在科技出版和数字图书馆领域的应用情况;分析了Harmsze模型、ABCDE模型、SALT模型等最具影响力的科技论文表示模型;调研了Article of the Future等网络出版模式;介绍了Liquid Publication等项目的研究成果及进展情况。 2.综述了一个科技知识对象模型-SKO Model。 SKO Model是SKO理论体系的基础,是对普遍存在的各类科技知识的形式化定义。它由四个层次组成,即物理层、语义层、序列层和表现层。物理层用于表示科技知识对象的实际内容,也就是它所包含的实际物理数据;语义层用于表示科技知识对象的语义信息,也就是关于数据的数据——元数据,用于描述数据整体或部分的属性;序列层用于描述科技知识对象的组成结构,事实上任何一个SKO都是由若干个SKO Node所组成,那么序列层则用于描述这些SKO Node的组成方式;表现层则用于描述科技知识对象的可视化部分,比如SKO的文件类型,即PDF、PPT、WORD等。SKO模型为本文定义的SKO Types、SKO Patterns和SKO TeX奠定了基础。 3.定义了一个结构化知识表示的元数据方案——SKO Types。 SKO Types既提出了SKO的分类层次,又定义了SKO以及相关实体类型的元数据方案。在SKO Model的四层结构基础上,本文根据SKO的组合方式将SKO分为三种类型,即SKO、SKO Set和SKO Node。如果把SKO比作分子,SKO Node就是组成这些分子的原子,SKO Set则是由这些分子组成的化合物。SKO Types一共定义了六大类属性,具体包括general、lifecycle、relational、technical、rights和meta-metadata。SKO Types兼容目前广为应用的元数据标准,如Dublin Core等。同时,SKO Types也提供相关的映射方法,便于用户导入其它元数据模式或领域本体协同工作。 4.提出了一种基于科学方法和逻辑推理的科技知识对象语义表示模型——SKOPatterns。 SKO Patterns在SKO Types的基础上,提出了基于语义的SKO结构化知识表示模式。广义上讲,SKO Patterns是对于科学方法(Scientific Method)的形式化描述,,包括科学方法中的一般过程。狭义上讲,SKO Patterns提出了基于语义的科技论文结构化知识表示方法,即任何一篇科技论文从语义的角度都包括下列结构化模块:“State ofthe Art”、“Problem Statement”、“Methods”、“Material”、“Results”、“Evaluation”和“Discussion”。同时,我们根据科学方法的基础——逻辑推理,定义了SKO的三种序列模式,即演绎、归纳和溯因。其中演绎是从前提条件通过规则得出结论的过程;归纳是从前提条件和结论总结规则的过程;溯因是从规则和结论分析可能的前提条件的过程。SKO Patterns提出了科技知识对象粗粒度的语义表示和三种基本的语义序列结构,它主要作用于SKO模型的第二层语义层及第三层序列层。 5.设计并实现了一个科技知识对象的语义标注语言及工具——SKO TeX。 SKO TeX是一个基于LaTeX和XML语法的语义标注语言及工具,可用于科技知识对象整个生命周期的管理,包括SKO的创建、发布、标注和重用等。SKO TeX包括若干个宏文件包和一个处理器,用于实现各种语义标注。同时,我们改进了传统的LaTeX文献管理辅助工具-BibTeX,并开发了EntTeX。顾名思义,BibTeX是用来管理Bibliography(参考文献)的类数据库工具,而EntTeX将Bibliography扩展为Entity(实体)。也就是说,通过EntTeX我们可以在传统的LaTeX环境下像引用参考文献一样去引用实体。当然,这里的引用即是我们可以通过命令或者相关算法获得所标注实体的全部属性信息,最终实现了自动化和动态的语义标注。SKO TeX主要作用于SKO模型的第四层-表现层。 6.介绍了SKO管理平台的实现与应用情况。 SKO理论体系和相关工具,包括上述我们提到的SKO Model、SKO Types、SKOPatterns和SKO TeX,已经部分应用于Liquid Publication欧盟项目和国际人工智能大会(International Joint Conference on Artificial Intelligence,IJCAI)项目,并计划应用于“Conference of the Future”倡议。为进一步推广提供了实际的参考和评价。
[Abstract]:As the Internet goes into the age of big data , large amount of unstructured data and semi - structured data seriously affect the search efficiency of search engine , and meanwhile , the reader is submerged in the vast and boundless information ocean . In the field of science and technology , reading literature , writing paper and publishing results is an important part of the research staff ' s career . Therefore , how to deal with the exponential growth of scientific literature , how to improve the search efficiency and reading efficiency of scientific and technological knowledge , how to provide users with more efficient searching , publishing and sharing platform are closely related to the development of scientific community .

Network publishing can be traced back to the early 1990s , although the network technology has developed rapidly in the past 20 years , including the emergence of search engine , the popularization of social network ( Web2.0 ) , the growth of semantic network technology , the science and technology publishing has not changed substantially . Most people still stay in a simple network download paper , the machine reads ;
The paper is written by Word or Latex , and then sent to editors and publishers by email or upload . The traditional science and technology publishing mode and the scientific and technological publications themselves can ' t adapt to the growing Web 2.0 and big data environments . The lack of semantic information , unstructured data and single reading mode greatly restrict the reader ' s efficiency and effect on the understanding , dissemination and reuse of scientific and technological knowledge .

This paper makes an in - depth study on the current development of science and technology publishing technology , combines various metadata standards , design pattern theory , semantic structure theory and semantic technology , and puts forward a set of presentation model , metadata standard , semantic structure and markup language used to manage scientific and technological knowledge objects , and further studies the semantic model of scientific and technological knowledge objects . The main contributions of this paper include :

1 . The research status and development trend of meta - data theory , paper representation model and network technology publication are summarized .

This paper reviews the application of Dublin Core Metadata Standard in the fields of science and technology publishing and digital library .
In this paper , the most influential scientific and technological papers , such as the model , ABCDE model , SALT model and so on , are analyzed .
Research the network publishing mode of Article of the Future ;
The research results and progress of Liquid Publication are introduced .

2 . A scientific knowledge object model - SKO Model is reviewed .

SKO Model is the basis of SKO theory system . It is a formal definition of all kinds of science and technology knowledge . It consists of four layers : physical layer , semantic layer , sequence layer and presentation layer . The physical layer is used to represent the actual content of the scientific knowledge object , that is , the actual physical data it contains ;
the semantic layer is used for representing the semantic information of the technical knowledge object , namely data metadata about the data , and is used for describing the attributes of the whole or part of the data ;
the sequence layer is used for describing the composition structure of the technical knowledge object , and in fact , any SKO consists of a plurality of SKO nodes , and then the sequence layer is used for describing the composition mode of the SKO nodes ;
The presentation layer is used to describe the visualization part of the scientific and technological knowledge object , such as the file type of SKO , that is , PDF , PPT , WORD , etc . The SKO model lays the foundation for SKO Types , SKO Patterns and SKO TeX as defined herein .

3 . A metadata schema _ SKO Types is defined for a structured knowledge representation .

SKO Types are classified into three types : SKO , SKO Set and SKO Node .

4 . A kind of scientific knowledge object semantic representation model _ SKOpattern based on scientific method and logical reasoning is proposed .

SKO Patterns , based on SKO Patterns , put forward a formal description of SKO structured knowledge representation based on semantics . In a broad sense , SKO Patterns are formal descriptions of scientific methods , including the general process in scientific methods . In the narrow sense , SKO Patterns include the following structured modules : State ofthe Art , Problem Statement , Methods , Material , Results , Evaluation and Discussion .
induction is the process of summarizing the rules from the precondition and conclusion ;
SKO Patterns propose a semantic representation of coarse granularity and three basic semantic sequence structures , which mainly act on the second layer semantic layer and the third layer sequence layer of the SKO model .

5 . Design and implement the semantic markup language and tool _ SKO TeX of a scientific and technological knowledge object .

SKO TeX is a semantic markup language and tool based on LaTeX and XML syntax . It can be used for the management of the whole life cycle of scientific and technological knowledge objects , including the creation , distribution , labeling and reuse of SKO .

6 . The implementation and application of SKO management platform are introduced .

SKO theory and related tools , including SKO Model , SKO Types , SKOPatterns and SKO TeX mentioned above , have been partially applied to Liquid Publication European Union Project and International Joint Conference on Artificial Intelligence ( IJCAI ) project and are planned to be applied to the " Conference of the Future " initiative .

【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 虞海江;马建刚;叶丹;李建峰;;基于发布订阅模式的数据集成中间件系统设计实现[J];计算机系统应用;2007年11期

2 周亚;;2001—2008年国内元数据自动抽取研究综述[J];科技情报开发与经济;2009年23期

3 金均强,王艳东,龚健雅;基于元数据的空间数据管理分发系统的设计与实现[J];测绘信息与工程;2005年05期

4 樊小泊;陈红;;海量影像数据库管理系统关键技术研究[J];计算机工程与应用;2006年30期

5 孙素云;;基于元数据集成检索系统的设计与实现[J];广东轻工职业技术学院学报;2007年02期

6 高敏;黄树桃;王树红;钟霞;;高放废物地质处置元数据设计与编辑模块开发[J];世界核地质科学;2010年03期

7 高峰;赵芳;;元数据技术在MDSS实时气象数据库系统建设中的应用[J];气象科技;2006年S1期

8 王良清;;关于建设省级地理空间数据交换中心的思考[J];现代测绘;2006年06期

9 叶国权;宁洪;;元仓库与源数据库的元数据同步策略的研究与设计[J];现代电子技术;2010年17期

10 王会娜,聂时贵,刘玫;地理数据库元数据标准框架的研究[J];现代测绘;2005年S1期

相关会议论文 前10条

1 赵培翔;张铭;杨冬青;唐世渭;;数字化文档元数据的自动提取[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

2 沈卫超;陈虹;夏芳;宋磊;;元数据管理系统的设计与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 陈胜鹏;邱文;;基于元数据的空间地理信息管理系统整合的研究与实现[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年

4 高峰;;实时气象资料数据库分系统[A];信息技术在气象领域的开发应用论文集(二)[C];2006年

5 王会娜;聂时贵;刘玫;;地理数据库元数据标准框架的研究[A];'2005数字江苏论坛——电子政务与地理信息技术论文专辑[C];2005年

6 王会娜;聂时贵;刘玫;;地理数据库元数据标准框架的研究[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年

7 寿志勤;崇大志;;四库建设中的元数据标准的确定与存储实现[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年

8 高丽娟;刘燕军;陈志成;;构件互操作描述语言的定义与实现[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

9 潘定;潘云姗;;DW 2.0环境中的元数据版本管理[A];第二十九届中国控制会议论文集[C];2010年

10 徐平均;王弘X;肖丽;廖丽;夏芳;;并行分布可视化系统JaVis中的I/O优化机制[A];第15届全国信息存储技术学术会议论文集[C];2008年

相关重要报纸文章 前10条

1 赵旭;元数据管理的五种成熟度[N];计算机世界;2006年

2 毕建涛 曹彦荣 何建邦 池天河;共享海量遥感影像数据[N];计算机世界;2006年

3 中国传媒大学计算机学院 朱立谷邋柳昊 孙志伟 郅斌;非结构化数据的归档术[N];中国计算机报;2007年

4 张峰;存储信息 迅速搜索[N];网络世界;2007年

5 浪潮存储产品部研发工程师 宫兴斌;基于PVFS的并行文件系统[N];网络世界;2005年

6 中国科学院计算技术研究所 常亮邋史忠植;语义Web的逻辑基础[N];计算机世界;2007年

7 吴彬松;安徽省电子文件中心系统接收与长久保存电子文件的策略[N];中国档案报;2007年

8 谢海燕;Vista 的WSD机制[N];计算机世界;2007年

9 陈凯锋;Linux服务器维护要点[N];中国电脑教育报;2002年

10 潘柏君;湖南省第三测绘院科学发展成绩喜人[N];中国测绘报;2011年

相关博士学位论文 前10条

1 万继光;集群多媒体存储系统的数据组织研究[D];华中科技大学;2007年

2 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年

3 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年

4 柴胜;空间资源中信息语义注册与检索相关技术研究[D];吉林大学;2008年

5 符青云;面向大规模流媒体服务的高性能存储系统研究[D];电子科技大学;2009年

6 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年

7 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年

8 韦亚星;基于数据网格的地理空间信息协作共享系统研究[D];中国科学技术大学;2007年

9 吴砥;学习资源管理与服务关键技术研究[D];华中科技大学;2006年

10 左琼;基于MPEG-7的通用多媒体数据库模型研究[D];华中科技大学;2010年

相关硕士学位论文 前10条

1 张晓凤;复杂产品项目中管理要素元数据的提取与管理研究[D];江苏科技大学;2013年

2 延娅妮;基于RDF语义元数据的构件动态组装系统[D];北京邮电大学;2008年

3 任广治;基于元数据的气象信息共享平台的设计与实现[D];山东大学;2008年

4 李方伟;基于元数据的教育资源非结构化数据组织管理[D];内蒙古大学;2008年

5 郭健;科技期刊开放存取的研究与实现[D];吉林大学;2007年

6 李武;面向现代服务业的大规模分布式文件存储系统设计和实现[D];浙江大学;2008年

7 刘高岭;海洋信息元数据目录服务系统的设计与实现[D];中国海洋大学;2008年

8 卢佳;基于元数据的构件软件回归测试技术[D];大连海事大学;2009年

9 韩雨;基于构件软件集成测试的研究和应用[D];西安建筑科技大学;2009年

10 连晓佳;基于元数据的油田信息可视化模型研究与设计[D];电子科技大学;2009年



本文编号:1782802

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1782802.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cd947***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com