馆藏资源语义化关键技术及实证研究
本文关键词:馆藏资源语义化关键技术及实证研究,由笔耕文化传播整理发布。
当前位置:首页 >> 互联网 >> 馆藏资源语义化关键技术及实证研究
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
027
馆藏资源语义化关键技术及实证研究*
楼 雯
摘 要 本文从微观层面设计了馆藏资源语义化模型
, 描述了馆藏资源语义化的关键技术, 并利用武汉大学图书馆馆藏 “美洲各国军事” 资源 类目的数据对模型进行了检验。从馆藏资源到语义资源需要经过信息提取技术、 语义关系提取技 术和形式化技术的支持。实验分析发现馆藏资源语义化模型所述的流程可用, 后续研究可以着眼于资源统一化。图 5。 表 3。参考文献 53。 关键词 馆藏资源 语义化 分词 概念提取 关系提取 形式化 分类号 G250
An Empirical Study on Key Technologies of Library Resource Semantization
Lou Wen
ABSTRACT This paper designs a model so as to figure out the entire process and key technologies of library resource semantization. The model was tested with America's military category data from Wuhan University Library's bibliographic retrieval systems. Interchange from library resources to semantic resources are supported by key technologies such as information extraction, relationship extraction, and formalization. Empirical analysis supports the feasibility of the model and further research should be focused on resource consolidation. 5 figs. 3 tabs. 53 refs. KEY WORDS Library resources. ization.
[ 5 ] 文献中心 等, 纷纷将其资源语义化, 在互联网上
Semantization.
Segmentation.
Concept extraction.
Relationship extraction.
Formal-
语义网的提出至今已有十几年时间, 人们对语 义网环境下的生活充满期待, 众多机构和个人将身 使之成为语义网的 边的信息资源发布成语义信息, 凡是将 一部分。信息资源语义化的形式有很多种, 人们掌握的知识通过先进技术转化成机器能够理 解的语言, 都可认为信息被语义化了, 所以发布语 义信息的途径不仅仅是构建成本体或关联数据。 但本体和关联数据是目前学者们首肯的语义化方 式, 近年来, 世界著名机构如 BBC 、 路透社 、 维 基百科 、 美国国会图书馆 、 中国国家科技图书
[ 3 ] [ 4 ] [ 1 ] [ 2 ]
W3C 设计了全民关联 发布和提供查询。2007 年, 最大程度地接近了语义网。 数据的计划, 信息资源语义化已经成为知识交流和知识共 享的必经之路, 图书馆作为蕴含巨大信息资源和知 识的集合, 馆藏资源的语义化在世界一些地区已经 成为语义网建设的重要组成部分, 在另一些地区也 即将成为重点研究的对象。语义网经过十几年的 时间还未能实现, 不仅仅是浩瀚的信息海洋造成 的, 也因为语义化过程中会遇到种种逻辑难题和技
( 批准号: 11&ZD152) 的研究 * 本文系国家社科基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究” 成果之一。 Email: hotwen_l@ sina. com 通讯作者: 楼雯, 2013 年 11 月 November, 2013
028
Journal of Library Science in China
术难题。语义网的实现是一个层层推进的过程, 首 进而带 先将一部分易于语义化的现有资源语义化, 动其他部分的语义化, 而图书馆就是现成的实验对 总 象。本文专门为馆藏资源的语义化设计了模型, 结归纳了语义化过程的关键技术, 并用两个实验揭 示了模型和关键技术的可行性, 旨在为馆藏资源的 语义化进程提供参考。
元数据、 本体和关联数据视为数字 些学者将 RDF、 微观层面的技术 图书馆实践中的关键技术。另外,
[ 16 - 18 ] 、 包括了概念提取、 概念转换 互操作、 语义互
概念格 联、 SOA 格、
[ 19 - 23 ]
, 中观层面的技术包括了语义网
[ 24 ]
[ 25 - 27 ] 、 , 本体构建、 本体映射、 本体进化
可以看到, 这些研究重点描述了数字图书馆语义化 的某种技术, 并没有形成一套完整的流程和技术 体系。 ( 3) 知识服务的关键技术 语义网和数字图书馆的建设和实现实际上都 是为了知识交流和知识共享, 因此上文提到的许多 研究已经表现出知识组织或个性化服务的内容和 关键技术 用方法
[ 9, 15 - 16, 19 - 22 ]
1 相关研究
馆藏资源首先是一种信息资源, 是所有信息 其次是图书馆特有的资源, 再次馆藏资 的一部分, 源经过人类和机器的理解转化为知识, 所以它还是 一种显性的知识资源。馆藏资源具有这三个含义, 其语义化的相关研究也可以从这三个方面进行 分析。 ( 1) 语义网的关键技术 实现语义网的技术是连接馆藏资源语义化与 万维语义网的关键, 目前的研究多以总结语义网技 术和提出新型语义化技术为主。在本体研究的热 潮中, 相关学者已将语义网的关键技术默认为本体 这一类的研究包括了全面介绍语义 及其相关技术, OWL 和 网信息组织的技术和方法, 并总结出 RDF、 本体是语义网的核心技术
[ 6 -7 ]
。不仅如此, 有的研究总结了
数据挖掘技术在图书馆建设中的具体使 聚类技术、
[ 28 - 30 ]
; 认为手工决策技术、 基于内容的推荐
[ 31 ]
系统、 基于本体的服务系统和智能信息推拉技术是 个性化服务的技术支持 ; 提出基于读者行为的 。这些是对知识服务 知识服务关键技术有读者特征提取技术、 兴趣模型 分析技术和协同推荐技术
[ 32 ] [ 33 ] 技术特征的总结和探讨。还有文献 利用关联数
据将多种数据源的知识关联到一起形成语义扩展, 则是对关键技术的应用。 近年来, 随着馆藏资源语义化进程的加快, 一 些学者提出了有建设性的语义化模型和框架, 为馆 藏资源语义化和知识服务提供了参考
[ 34 - 36 ]
。本文强调广义的
语义化, 因此这些总结出的关键技术并不能代表所 有的语义网技术。在新型技术的研究上, 有学者提
[ 8 ] 知识的自动分类技 出了语义化网络的学习算法 、 [ 9 ] [ 10 ] 术 、 微格式技术 可以作为语义网实现的关键
。上述
有的则仅 研究有的仅设计了模型或进行实验验证, 描述一部分技术, 尚缺乏对馆藏资源语义化过程整 套系统关键技术的归纳总结。因此本文设计了馆 并描述其中各个部分的关键 藏资源语义化模型, 技术。
技术, 但这些技术的使用环境较为局限, 研究也缺 乏全面性。当然也有学者认识到总结归纳语义网 关键技术的必要性 问题。 ( 2) 数字图书馆的关键技术 数字图书馆在馆藏资源从数字化到语义化的 数字图书馆相关技术的研究 过程中起着重要作用, 包括了对语义化技术的应用以及微观、 中观层面技 术的研究。在技术的应用方面, 目前学者偏向于利 用 RDF、 元数据、 本体和关联数据
[ 12 - 15 ] [ 11 ]
, 但只描述了问题, 并未解决
2 馆藏资源语义化模型
馆藏资源语义化主要包括信息的提取、 语义关 系的提取、 形式化和应用等步骤, 图 1 显示了馆藏 资源语义化的主要过程。 数字时代的图书馆已不再是纸质图书的集合 地, 现有的馆藏资源有很多种, 若要把所有馆藏资 源语义化, 则要考虑到所有形式的馆藏资源。
进行图书书
目的语义化或提出新的知识组织方法, 也就是说这
总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
029
图 1 馆藏资源语义化模型 尽管不同的资源类型有不同的行文格式和出 版样式, 但是它们均具有外部特征和内部特征。外 部特征包括题名、 著者、 编号、 分类号 / 名和出版发 内部特征则包括正文、 摘要和主题等。馆 行项等, 藏资源语义化的过程中, 内外部特征的语义化内容 语义化的过程也不同, 因此需要区别对待。 不同, 对内外部特征分别预处理后, 则进入信息的 提取步骤, 这一步主要运用的关键技术统称为信息 提取技术。内部特征是表示资源主题内容的信息 集合
[ 37 ]
词之间有等级和非等级的关系, 可以通过基于 来, 关联规则的、 基于聚类的、 基于语法规则的提取方 法得来。 不论内部特征还是外部特征, 概念和关系的强 弱都需要经过相似度计算才能确定。当概念和关 系都提取出来后, 就可以形成三元组, 对三元组形 从而将馆藏资源转换成语义资源。 式化,
3 馆藏资源语义化关键技术
3. 1 信息提取相关技术 信息提取是指从结构化信息、 半结构化信息和 非结构化信息中提取概念或实例并将其存储成事 实信息的过程
[ 38 ]
, 表示方式多为文字段落, 需要进行分词处
理才能将内部特征显现出来, 在分词过程中, 由于 分词的方法和注意事项也不同, 语言语种的不同, 总体来说分词时需要考虑分词算法、 词性标注和组 词规则。经过分词后的段落已经是零散的信息点, 要提取有用的信息点, 运用到的关键技术是概念提 取技术, 概念提取技术又可以进行细分。外部特征 的概念提取没有内部特征繁杂, 外部特征是已经被 主题标引后的信息, 可直接视为概念, 但仍需进行 消歧、 过滤等处理, 防止重名、 特殊情况的出现。 内外部特征经过核心词筛选后, 就可以进行 语义关系提取的步骤。核心词主要依靠已有叙词 表和领域专家来筛选。语义关系提取技术包括计 量分析技术和提取方法。外部特征之间的关系可 这里所说的 以很清楚地用计量分析技术表现出来, 计量分析可以是文献计量分析、 信息计量分析、 科 学计量分析和网络计量分析, 分析方法有共词分 析、 耦合分析、 共引分析等。而内部特征之间的关 需要利用文本中词之间的关系体现出 系种类繁多,
。结构化信息和半结构化信息
( 如文献外部特征) 提取概念较为方便, 从非结构 化信息( 如文本) 提取概念需要对文本中的字词进 行取舍, 如何判断取舍则需要分词技术、 命名实体 识别和概念提取技术。 ( 1) 分词技术 分词技术是自然语言处理的研究范畴, 国内外 学者对自然语言理解展开了深入的研究。西文分 基 词方法大致可归为三大类: 基于语法的分析法、 于语法与语义相结合的分析法和基于语义的分析 SimpleAnalyzer、 法三类, 常用的分词工具有 Lucene、 WhitespaceAnalyzer 等。汉语分词方法有基于词典 基于统计的分词方法、 基于理解的分 的分词方法、 词方法
[ 39 ]
。基于词典的分词方法需要一个标准词
一般用正向最大匹配算法、 逆向最大匹配算法 典,
2013 年 11 月 November, 2013
030
Journal of Library Science in China
和最小切分算法使待分词文本与词典匹配, 匹配成 功的词则被切分; 基于统计的分词方法不需要词 典, 如果把词看作固定的字的组合, 相邻的字共同 则把这些字当作一个 出现的次数超过一定阈值, 词; 基于理解的分词方法是机器学习的算法, 机器 在分词的同时进行语法、 句法和语义分析, 需要经 过大量的学习试验集才能确定精度。 词性标注就是利用计算机给文本中的词标上 “电脑” 、 “美丽” 如 是名词 是形容词等。词性 词类, 标注有助于机器识别。自然语言常会出现词组、 兼 词( 一个词具有多个词性) 和新词, 给词性标注带 来很大困难, 组词规则可以解决一部分难题。虽然 有现有的词性词典和组词规则, 但使用时还要考虑 到实际情况, 有些专有性强的分词文本更多利用专 用叙词表。 国内自动分词系统主要有清华 SEG 分词系 统、 复旦分词系统、 北大计算机研究所分词系统和 中国科学院 ICTCLAS ( Institute of Computing Technology, Chinese Lexical Analysis System)
[ 40 - 41 ]
( 3) 概念提取方法 有 分词后的文本已经成为概念的离散的集合, 些可能是错误的概念, 需要概念提取方法将其完 提取语义概念的方法 善。总结多年来学者的研究, gram 的方法、 有基于词典的方法、 基于 N基于互信
[ 44 ] 息的方法、 基于上下文信息的方法和混合方法 ,
其中基于互信息的和基于上下文信息的方法有助 于提取合成词。①基于词典的方法, 又称为基于规 则的方法, 该方法有一套标准的词典与分词后的结 果进行匹配, 匹配成功的词则成为待选概念。这种 方法提取出的概念精准度高, 但方法的约束性太 强, 符合标准的自然语言或相似词均无法被提取出 gram 的方法, 来。②基于 N这种方法将相邻的 N “人 个分词文本中的词组合起来, 形成新概念, 如 们 / n 的 / u 脑子 / n 里 / f 就 / d 会 / v 出现 / v 英勇 / a gram 结果为 “人们的 ” 、 “的脑 的 / u 形象 / n ” 的 2” 、 “脑子里 ” 、 “里就 ” 、 “就会 ” 、 “会出现 ” 、 “出现 子 ” 、 “英勇的 ” 、 “的形象” , 英勇 可以看出结果往往出 现不是词的概念, 错误率较高。因此有时根据实际 情况会多次选择不同的 N 来提高准确率。③基于 互信息的方法, 互信息是统计语言学模型中度量两 个词之间关联程度的指标, 通过计算 A 词和 B 词 相邻出现在文本总词数中的概率, 确定合成词 AB 是否为概念词。④基于上下文信息的方法, 概念之 B 词的上文 间的上下文与概念有紧密联系, 设 A、 同有 C 词, 计算此情况出现的概率, 概率越高说明 合成词 AB 越可能是概念词。⑤ 混合方法就是将 搭配使用后提取概念的效果更 以上方法取长补短, 比如可以先用基于词典的方法将标准词提取出 佳, gram 算法形成新词, 来, 再将剩下的通过 N利用基 于互信息的或基于上下文的方法对新词进行过滤, 最终形成整套的待选概念。 3. 2 语义关系提取相关技术 语义关系多被分为等级关系和非等级关系, 提 取方法大为不同。等级关系是树型结构, 与聚类技 术的结果类似, 因此多用层次聚类算法提取; 非等级 关系在现实生活中出现更多, 形式多样, 比如地理位 置关系、 人物关系、 属性关系等, 因此提取方法也有多
。IC-
TCLAS 主要功能包括中文分词、 词性标注、 命名实 体识别、 新词识别, 系统基于层叠隐马模型( Cascaded Hidden Markov Model, CHMM) 而设计, 利用了 具有开源的特 基于词典的和基于统计的分词方法, 点, 应用较为广泛。 ( 2) 命名实体识别 命名实体识别是信息处理技术的关键基础技 术, 命名实体是文本信息中的基本单位, 是固有名 缩写等的唯一标识 称、
[ 42 ]
。命名实体识别即发现
命名实体并进行类型的标注。命名实体的识别可 分为命名实体的识别和新词的抽取两种类型。通 《中国人名大词典 》 、 《世界 用的识别过程一般依据 地名翻译大辞典》 等现有的资料与文本进行匹配, 并标注上实体类型
[ 43 ]
。除词典形式的已有资料
外, 国内外学者已建立了通用本体的新的组织方 式, 更快捷准确地识别命名实体。正是在现有资料 的基础上, 像 ICTCLAS 均可以实现命名实体识别 的功能。但基于词典的识别方法有很大的局限性, 作为新词的命名实体无法被标注, 这时则需要利用 概念提取方法。
总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
031
种, 如关联规则、 计量分析方法和语法规则等。 ( 1) 相似度计算 相似度计算贯穿概念提取和关系提取的始 终。常用的计算方法有四类: ①基于特征的计算方 法, 两个概念若拥有的共性越多, 说明两者相似度 反之则差异性越大, 这种方法又被称为 Tver越大, sky 指数
[ 45 ]
偏重如何将 果说本体在表示概念及其相互关系时, 而计量分析则能够帮助本体挖 其表现得更有内涵, 掘出概念间是何种关系
[ 36 ]
。计量分析的主要方法
有共词分析、 耦合分析和共引分析等, 提供的计算 结果是两个概念共同出现的次数, 从而确定两者的 作者 A 和作者 B、 作者 A 和 关系强度。举例来说, 作者 C 共同撰写过某些文章, 定义两者关系均为 “合作” , B 和 C 究竟谁与 A 合 这是浅层次的关系, 计量分析的结果可以表达出来, 从而得到 作密切, “强合作” “弱合作” 关系和 关系等, 也可以用具体 的相似度数值表现强弱关系。 值得一提的是, 关联规则也是数据挖掘的重要 方法, 利用关联规则可以发现概念之间潜在的语义 关系。关联规则的原理是从原始数据集中找出高 利用高频集产生规则, 也可用规则检验数据 频集,
[ 53 ] 项是否满足条件, 经典的算法有 Apriori 算法 。
, Dice 系数 其可变形为 Tanimoto 系数、
等。②基于距离的计算方法, 其基本思想是计算出 则相似度越低, 反之则相 的两个概念的距离越远, 似度越高, 在本体中一般利用概念距离根节点的路 径长度计算两者距离。③基于信息论的计算方法, 两个概念拥有的共同信息越多, 说明相似度越 高
[ 46 ]
, 信息论的方法是基于特征的计算方法的变
形, 共有信息的度量只能依靠共有特征的度量。④ 混合方法是通过概念的同义词集、 语义邻居概念和 概念特征多重指标综合计算概念间的相似度 ( 2) 聚类技术 聚类技术是数据挖掘的重要方法, 不同的聚 类方法可以提取到不同概念之间的关系。国内外 二维聚类和 研究聚类技术依对象可分为一维聚类、 多维聚类, 或概念聚类、 词聚类、 文本聚类和文献聚 类; 依算法可分为基于划分的方法、 层次聚类方法、 基于密度的方法、 基于网格的方法和基于模型的方 法。①基于划分的方法将聚类对象划分为几个初 初始组被反复迭代进行优化直至不能再改 始组, means 算 法 及 其 变 进, 划分 法 的 著 名 算 法 有 K形
[ 48 ] [ 47 ]
。
语法规则也是提取非等级关系的关键, 非等级关系 中谓词的选择主要依靠语法规则进行提取, 西文和 汉语都有特定的语法将字和词组成句子, 如一个完 整的句子至少包括主谓宾结构, 分析语法结构可以 从而了解词和句子的语义关系。 分析句法, 3. 3 形式化技术 无论是哪种语义资源, 都需要承载工具才能将 其发布到语义网中, 这种承载的工具就是形式化语 言和工具。由 W3C 领衔的语义语言开发已经形成 Metadata、 RIL、 WSDL、 RRL、 XTM、 RDF、 了 规 模, RDFS、 XML、 OWL、 FOAF、 DC、 RDA 等语言的出现, 丰富了形式化语言的内容。形式化工具依托形式 RDFS、 XML 和 化语言被开发出来, 如适用于 RDF、 OWL 的 Protégé、 Jena、 Apollo、 Ontolingua 和 WebODE Drupal、 DB等工具, 关联数据发布工具 D2RServer、 pedia 等。
, Clarance 算法[49]等; ②层次聚类方法是一种
先将聚类对象独立成 自底向上或自顶向下的方法, 每个原子类, 再利用某些相似度规则进行逐层聚
[ 50 ] 类, 主要算法是 CURE 算法 ; ③基于密度的方法
不同于层次聚类方法中计算原子类之间的距离, 而 是从聚类对象的密度出发, 主要用于空间数据的聚
[ 51 ] 类, 典型算法是 DBSCAN 算法 ; ④基于网格的方
法将数据划分为有限的单元格, 再分析单元格中的
[ 52 ] 数据进行聚类, 如 STING 算法 ; ⑤基于模型的方
4 实验与讨论
为了验证馆藏资源语义化模型的可用性, 体现 语义化关键技术的可行性, 下文分别针对馆藏资源 的内外部特征设计了实验, 揭示馆藏资源语义化过
2013 年 11 月 November, 2013
法是将某一聚类对象抽象成一个模型, 再从其他的 对象中寻找最优的和模型匹配。 ( 3) 计量分析技术 计量分析能够确定概念之间的关系强度, 如
032
各国军事” 类图书信息。
Journal of Library Science in China
程。实验数据为随机选取的武汉大学图书馆馆藏 ) “美洲 书目检索系统中的 E7( 中国图书馆分类号
种, 将其按全记录格式下载并预处理后, 得到 307 75 个出版单位, 179 个标引 个著者( 含团体著者) , 主题词, 将武汉大学图书馆书目标引卡片格式的各 个字段作为语义概念, 则得到如图 2 所示的类目 体系。
4. 1 实验一 — — —馆藏资源外部特征的语义化过程 ( 1) 在武汉大学图书馆中, E7 类图书共 167
图 2 军事本体一类目等级体系 ( 2) 定义类目属性, 包括类目本身的属性( Object Property) 和类目的数据属性( Data Property) , 类 目本身的属性表示各类目之间的关系, 比如题名类 隶属于军事本体一类, 题名类由出版单位类出版等 等; 数据属性规定了类目数据的特征, 比如其他分 系统号不能为空等。 类号的数据类型为双精度型, 类目之间的关系与出版事实相符, 不再赘述。 ( 3) 添加实例。将著者、 出版单位等概念设置 为各类目的实例, 此过程中需要确定实例的准确 性, 即进行核心词汇的筛选, 因为题名、 分类号、 系 统号和出版单位均为固定数据, 只需检查即可, 所 以筛选的主要内容是著者和主题词。 ( 4) 定义实例属性, 即提取实例间的关系。类目 体系中的一些实例关系是特定的, 比如题名被分到 出版单位出版某一本书, 某著者撰写某 某一分类号, 一题名, 这是浅层的语义关系。另有一些实例的关 系较为复杂, 比如著者之间的关系, 主题词之间的关 系, 著者和主题词之间的关系, 有著者合作关系, 主 题词共现关系, 著者主题词共现关系等。下面仅举 307 位著者中有合作关 例说明著者合作关系的提取, 两两合作次数为 400, 所以共有 400 系的作者 215 位, 对著者合作关系, 在整个合作网络中不同关系对的 关系强弱不同, 利用共现分析得到两两著者的合作 c2 ) = 次数, 并按基于特征的相似度计算公式 S( c1 , 2 × f( c1 ∩ c2 ) ∩ c2 ) + f( c1 - c2 ) + f( c2 - c1 ) 4. 2 实验二— — —馆藏资源内部特征的语义化过程 ( 1) 武汉大学图书馆馆藏书目检索系统中有 关图书内部特征的标引字段有内容简介、 摘要、 网 络摘要, 本文选取 E7 类图书的内部特征作为原始 167 本图书中只有 99 本有此内部特征, 数据, 将这 些内部特征下载并存储成 TXT 文档。 ( 2) 分词。本文利用中国科学院的分词软件 ICTCLAS, 将图书的文本内容进行切分, 分词的结 果如表 2 所示。 ( 3) 概念提取及核心词汇的筛选。将所有文 gram 的提取方法, 本合并为一个文本, 利用基于 N结合组词规则, 将文本分词结果提取成概念词。利 《英汉军事大词典》 用 进行核心词汇的筛选, 从而 f( ci ) 得到两两著者的共现关系强度( 见表 1) 。其中, f ( c1 ∩c2 ) 表示 c1 和 c2 共同 为著者单独出现的次数, f( c1 - c2 ) 表示 c1 出现而 c2 不出现的次 出现的次数, f( c2 - c1 ) 表示 c2 出现而 c1 不出现的次数。在表 1 数, 中, 语义相似度只有 2 个数值, 但整个合作网络肯定 在进行语义标注时不能将数值 会出现更多的数值, 作为关系表示, 于是要将语义相似度抽象化表示, 比 0. 4 的 如将相似度值为 0. 67 的关系表示为高度相关, 关系表示为中度相关, 则得到如表 1 所示的著者语 义关系对及三元组。 ( 5) 形式化。利用 RDF 语言将所有三元组形 式化, 最后形成军事本体一, 如图 3 所示。
[ 2 × f( c
1
]
总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
033
表 1 军事本体一中著者两两关系语义相似度计算过程( f( c1 ) ≥3)
c1 莫里斯 莫里斯 莫里斯 莫里斯 蔡晓惠 蔡晓惠 蔡晓惠 蔡晓惠 蔡晓惠 赫恩 赫恩 赫恩 赫恩 赫恩 c2 蔡晓惠 符金宇 靳绮雯 林贤明 靳绮雯 林贤明 米琳 莫里斯 墨菲 白堃 胡升新 李进 易亮 郑金艳 f( c1 ) 3 3 3 3 3 3 3 3 3 3 3 3 3 3 f( c2 ) f( c1 ∩c2 ) f( c1 - c2 ) f( c2 - c1 ) S( c1 , c2 ) 3 1 2 1 2 1 1 3 1 1 1 1 1 1 2 1 2 1 2 1 1 2 1 1 1 1 1 1 1 2 1 2 1 2 2 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0. 67 0. 4 0. 67 0. 4 0. 67 0. 4 0. 4 0. 67 0. 4 0. 4 0. 4 0. 4 0. 4 0. 4 相关性 高度相关 中度相关 高度相关 中度相关 高度相关 中度相关 中度相关 高度相关 中度相关 中度相关 中度相关 中度相关 中度相关 中度相关 三元组 < 莫里斯, 高度相关, 蔡晓惠 > < 莫里斯, 中度相关, 符金宇 > < 莫里斯, 高度相关, 靳绮雯 > < 莫里斯, 中度相关, 林贤明 > < 蔡晓惠, 高度相关, 靳绮雯 > < 蔡晓惠, 中度相关, 林贤明 > < 蔡晓惠, 中度相关, 米琳 > < 蔡晓惠, 高度相关, 莫里斯 > < 蔡晓惠, 中度相关, 墨菲 > < 赫恩, 中度相关, 白堃 > < 赫恩, 中度相关, 胡升新 > < 赫恩, 中度相关, 李进 > < 赫恩, 中度相关, 易亮 > < 赫恩, 中度相关, 郑金艳 >
图 3 军事本体一( 部分) 组成本体的类目体系( 见图 4) 。 ( 4) 语义关系的提取。首先确定概念之间的 等级关系, 利用层次聚类的算法将相似度较高的一 “国家” “半殖民地国 批概念对提取出来, 比如 和 ” 、 “冷战时代” “后冷战时代 ” 、 “关系” “合作 家 和 和 等。再利用基于距离的相似度计算方法计算 关系” 出邻近词的相似度, 提取高相似度的邻近词, 比如 “同盟关系” “合作关系 ” 、 “互动行为” “关系” 、 和 和 “组织体制” “体制革新” 和 等。 第二步确定概念之间的非等级关系, 概念之
2013 年 11 月 November, 2013
034
Journal of Library Science in China
表 2 图书文本分词结果( 部分)
/ w 人们 / n 的 / u 脑子 / n 里 / f 就 / d 会 / v 出现 / v 一个 / m 英勇 / an 、 / w 威严 / an 、 /w 暴 只要 / c 一 / m 提起 / v 巴 / j 顿 / q , / w 善战 / v 的 / u 美军 / n 司令官 / n 形象 / n 。 / w 人们 / n 称 / v 他 / r 为 / v“/ w 有 / v 指挥 / v 大军 / n 的 / u 天才 / n 躁/a 、 ” /w , / w 特别 / d 擅长 / v 进攻 / vn、 / w 追击 / v 和 / c 装甲 / b 作战 / v 。 / w 《/ w 巴顿 / nr 将军 / nz 战争 / n 回忆录 / n 》 /w / w 西欧 / ns 期间 / f 的 / u 日记 / n , / w 在 / p 战争 / n 刚刚 / d 结 是 / v 他 / r 根据 / p 自己 / r 在 / p 二战 / j 转战 / v 北非 / ns 、 / w 也 / d 是 / v 他 / r 本人 / r 唯一 / b 的 / u 有关 / vn 二战 / j 的 / u 连续性 / n 记载 / v 。 / w 回顾 / 束 / v 时 / ng 撰写 / v 的 / u , / w 除了 / p 战役 / n 与 / c 屠戮 / v , / w 还有 / v 一些 / m 重要 / a 人物 / n 。 / w v 第二 / m 次 / q 世界大战 / l , 整整 / d 二十 / m 世纪 / n 。 / w 美国 / ns 一直 / d 是 / v 世界 / n 第一 / m 强 / a 国 / n 。 / w 冷战 / n 结束 / v 后 / f 美国 / ns 所 / / w 至少 / d 可 / v 以 / p 保持 / v 二三十 / m 年 / q 。 / w 今天 / t , / w 美国 / ns u 占据 / v 的 / u 唯一 / b 超级大国 / n 地位 / n , / w 是 / v 影响 / v 中国 / ns 经济 / n 发展 / vn 和 / c 政治 / n 桅顶 / n 的 / b 是 / v 中国 / ns 最 / d 重要 / a 的 / u 外交 / n 对手 / n , / w 美国 / ns 也 / d 是 / v 中国 / ns 事实上 / l 最 / d 大 / a 的 / u 贸易 / vn 伙伴 / n , /w 最 / d 大 / a 外部 / f 力量 / n ; / nx 同时 / c , / w 是 / v 同 / p 中国 / ns 在 / p 教育 / vn、 / w 科学 / a 文化 / n 、 / w 技术 / n 等 / 在 / p 中国 / ns 的 / u 第一 / m 大 / a 投资国 / n , u 领域 / n 交往 / vn 最 / d 多 / a 的 / u 国家 / n , / w 所以 / c 我们 / r 需要 / v 借鉴 / v 发达 / a 资本主义 / n 国家 / n 的 / u 经验 / n, / w 全面 / ad 了解 / v 美国 / ns , / w 深入 / ad 研究 / v 美国 / ns 。 / w
图 4 军事本体二类目等级体系( 部分)
总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
035
间的非等级关系分为类目之间的非等级关系、 类目 与实例间的非等级关系和实例之间的非等级关系。 首先确定类目之间的非等级关系, 利用关联规则的 “将军” “司令” , 提取方法得到同级关系, 比如 和 利 用语法规则的提取方法得到具有谓语语词的关系, 比如 < 半殖民地国家, 跃升, 强国 > , 这样就可以确 定类目的等级体系结构( 见图 4) 。 再添加实例, 在文本中, 核心词汇之外的词均 可能成为实例, 为方便实验, 本文将表 3 中非类目 概念的词视为实例, 因为实例无需从文本中再次提 取, 但要确定的是特定的实例应该隶属于哪个类, 相当于要确定类目与实例之间的关系。可以利用 将类目和实例间的两两相似度计 相似度计算方法,
相似度高的则认为某实例是某类目的实 算出来, “中国” “半殖民地国家” , “第二 比如 是 的实例 例, “战争” , “巴顿” “司令官” 次世界大战” 是 的实例 是 的实例等。需要说明的是, 在有限的文本集合中, 不是所有的实例都能找到对应的类目, 也不是所有 的类目都包含实例。 最后一种非等级关系是实例之间的关系, 同 样利用关联规则和语法规则的提取方法得到语词 < 巴顿, 关系, 比如 < 美国, 对手, 中国 > , 擅长, 追 击 > 等。 ( 5) 形式化。除了像军事本体一利用本体语 言进行形式化外, 还可利用 Protégé 工具构建本体, 如图 5 所示。
gram 且符合组词规则的概念提取结果( 部分) 表 3 基于 Ngram 基于 2半殖民地国家 导弹管制 竞争能力 防务战备 海岸警卫队 国际军控 合作关系 作战方式 /b + /n /n + /v / vn + / n / n + / vn /s + /n /n + /n /n + /n /v + /n 组词规则 gram 基于 3导弹防御计划 国家安全战略 发达资本主义国家 后冷战时代 军事合作关系 战略防御思想 美俄关系 互动行为 组词规则 /n + /v + /n / n + / an + / n /a + /n + /n /f + /n + /n /n + /n + /n /n + /v + /n /j + /j + /n / n + / ng + / v
图 5 军事本体二( 部分)
2013 年 11 月 November, 2013
036
4. 3 讨论
Journal of Library Science in China
据和方法的深入理解后才能使用。
从上述两个实验的过程和结果可以发现, 馆 藏资源语义化是需要一定条件的。首先, 不同类型 的图书馆要选择不同的语义化过程和关键技术。 语义化过程是建立在已有馆藏资源数字化基础上 的, 目前有些小型高校图书馆、 公共图书馆并不支 因此离语义网还有 持馆藏资源的公开检索和利用, 一定距离, 离馆藏资源的完全语义化则更远, 这种 图书馆首先应该进行完整的主题标引及规范的内 外部特征信息组织。其次, 馆藏资源的数字化丰富 程度与关键技术的选择密切相关。实验中武汉大 学图书馆的摘要收录较为完整, 如果一个图书馆只 语义化时则只需要按照 数字化了图书的外部特征, 实验一的流程进行, 也就是说数字化丰富程度越 高, 选择的语义化关键技术就越多越复杂, 这也是 关键技术的 与馆藏资源建设阶段呈正比的。最后, 使用技巧是语义化人员培训时的重要内容。从实 验二中看到关键技术并不是统统使用, 而应针对不 同数据特征进行筛选, 总的来讲, 不同数据源的外 部特征语义化过程均与实验一类似, 但关系提取时 要注意没有引文的数据不能用共引分析; 学科专业 程度高的数据源在信息提取时选择基于词典和基 gram 的方法较好较快, 如实验二; 特定表达形 于 N式的数据源则选择基于互信息和基于上下文信息 的方法较准确, 如诗歌、 小说; 而不论数据源专业程 度如何,, 文本中的语义关系均很复杂, 提取语义关 系时, 关联规则、 聚类算法和语法规则需要结合使 用。因此, 这些关键技术需要经过语义化人员对数 馆藏资源语义化还需要一个长期的过程, 本 文从微观层面描述了馆藏资源语义化的全过程, 设 总结出馆藏资源语义化 计了馆藏资源语义化模型, 关键技术主要是信息提取相关技术、 语义关系提取 相关技术和形式化技术, 分支技术则包括分词技 术、 命名实体识别、 概念提取技术、 相似度计算方 法、 聚类技术、 计量分析技术、 关联规则、 形式化语 言和工具等技术与方法。 本文利用武汉大学图书馆馆藏资源的不同特 征分别进行了馆藏资源语义化模型的实验, 对外部 特征主要采用了关键技术中的相似度计算方法、 计 形式化语言和工具, 对内部特征主要 量分析技术、 gram 算法和组词规则结 基于 N采用了分词技术、 合的概念提取技术和基于语法规则和关联规则结 合的关系提取技术等, 分别验证了馆藏资源语义化 模型中针对不同特征而设计的语义化流程。事实 上, 现实生活中的语义网不可能单独存在, 不可能 外部特征拥有 馆藏资源内部特征拥有一个语义网, 另外一个语义网, 实验中的语义化内容其实是可以 合并的, 就是将内部特征语义资源整合入外部特征 语义资源, 或两者融合为整体的语义资源。因此馆 藏资源语义化模型尚可改进, 这是今后研究的 方向。
5 结语
参考文献
[1 ] 杨爱武. 基于关联数据的图书馆创新服务研究 [ J] . 图书与情报, 2012( 3) : 85 - 88. ( Yang Aiwu. The research of library innovation service based on linked data[ J] . Library and Informaion, 2012( 3) : 85 - 88. ) [2 ] 新浪科技. 路透社发布 Calais 网络服务开放式 API [ EB / OL] .[ 2013 - 04 - 29] . http: / / tech. sina. com. cn / i /20080131 /14382008679. shtml. ( Sina Technique. Reuters published a Calais Web services open API [ EB / OL] .[ 2013 - 04 - 29] . http: / / tech. sina. com. cn / i /20080131 /14382008679. shtml. ) [3 ] 张海粟, [ J] . 计算机应用研究, 2011 ( 8) : 2807 - 马大明, 邓智龙. 基于维基百科的语义知识库及其构建方法研究 2811. ( Zhang Haili, Ma Daming, Deng Zhilong. Semantic knowledge bases construction based on Wikipedia[ J] . Application Research of Computers, 2011( 8) : 2807 - 2811. ) [4 ] 夏翠娟, J] . 中国图书馆学报, 2012 ( 2 ) : 49 - 58. ( Xia Cuijuan,Liu 刘炜, 赵亮, 等. 关联数据发布技术及其实现[ 总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
037
Wei,Zhao Liang, et al. The current technologies and tools for linked data: A case of Drupal[ J] . Journal of Library Sci2012( 2) : 49 - 58. ) ence in China, [5 ] 乔晓东, [ J] . 数字图书馆论坛, 2012( 2) : 54 - 60. ( Qiao Xia白海燕, 梁冰. NSTL 的关联数据构建与应用场景设想 Bai Haiyan, Liang Bing. Construction of linked data and design of application scenes in NSTL[ J] . Digital Liodong, 2012( 2) : 54 - 60. ) brary Forum, [ M ] . 上海: 学林出版社, 2008. ( Dai Weimin. Information organization technolo[6 ] 戴维民. 语义网信息组织技术与方法 gy and method on semantic web[ M ] . Shanghai: Academia Press, 2008. ) [7 ] 李青山, [ J] . 计算机科学, 2002( 6) : 86 - 89. ( Li Qingshan,Chenping. Research on 陈平. 语义化互联网的关键技术 key techniques of semantic web[ J] . Computer Science, 2002( 6) : 86 - 89. ) [8 ] 姚绍文. 语义化 web 的关键技术及其应用研究 [ D ] . 成都: 电子科技大学, 2002. ( Yao Shaowen. Research on key issues and application of semantic web[ D ] . Chengdu: University of Electronic Science and Technology of China, 2002. ) [ D ] . 上海: 复旦大学, 2009. ( Dai Yintang. Research on key tech[9 ] 代印唐. 基于语义网络的知识协作关键技术研究 nologies of semantic networks based on knowledge collaboration[ D ] . Shanghai: Fudan University, 2009. ) 10] 厉毅, [ J] . 中国教育信息化, 2012( 17) : 30 - 33. ( Li Yi,Zheng Wei. [ 郑炜. 数字学习网站资源的微格式语义化组织 Digital learning website semantic organization based on micro formats[ J] . China Education Info, 2012( 17) : 30 - 33. ) [ 11] 罗庆云, J] . 甘肃联合大学学报( 自然科学版) , 2007 ( 5 ) : 75 - 79. 赵巾帼. 语义化 Web 的理论基础与技术基础[ ( Luo Qingyun, Zhao Jinguo. Semantics web rationale and technology base[ J] . Journal of Gansu Lianhe University ( Natural Sciences) , 2007( 5) : 75 - 79. ) [ 12] 朱大丽. 图书馆目录数据关联的语义化探析— — —充溢着背景知识的图书馆目录数据[ J] . 图书馆学研究, 2012 ( 1) : 54 - 58, 95. ( Zhu Dali. Library catalog data linked semantization: Full of background knowledge library catalog data [ J] . Research on Library Science, 2012( 1) : 54 - 58, 95. ) 13] 白海燕, J] . 现代图书情报技术, 2010 ( 9 ) : 18 - 27. ( Bai [ 乔晓东. 基于本体和关联数据的书目组织语义化研究[ Qiao Xiaodong. Study of semantic bibliography base on ontology and linked data[ J] . New Technology of LiHaiyan, brary and Information Science, 2010( 9) : 18 - 27. ) 14] 欧石燕. 面向关联数据的语义数字图书馆资源描述与组织框架设计与实现 [ J] . 中国图书馆学报, 2012 ( 6) : 58 - [ oriented framework for resource description and organiza71. ( Ou Shiyan. Design and implementation of a linked dataJ] . Journal of Library Science in China, 2012( 6) : 58 - 71. ) tion in semantic digital libraries[ [ 15] 王军, J] . 中国图书馆学报, 2012 ( 4 ) : 39 - 45. ( Wang Jun,Bu 卜书庆. 网络环境下知识组织规范的研究与设计[ Shuqing. A study and design on the standard for the networked knowledge organization system[ J] . Journal of Library Science in China, 2012( 4) : 39 - 45. ) 16] 王丽华. 基于语义网的数字图书馆的关键技术 [ J] . 情报杂志, 2004( 4) : 5 - 8. ( Wang Lihua. Key technology of dig[ ital library based on semantic web[ J] . Journal of Information, 2004( 4) : 5 - 8. ) [ 17] 王睿佳, [ J] . 大学图书馆学报, 2012( 5) : 71 - 76. 刘耀. 面向科技文献的多模态语义关联特征提取与表达体系研究 ( Wang Ruijia, Liu Yao. Study on the feature extraction and expression system of multimodal semantic information for scientific and technical literature[ J] . Journal of Academic Library, 2012( 5) : 71 - 76. ) [ 18] 董慧, )— — —语义信息的提取[ J] . 情报学报, 2006 ( 4) : 余传明, 姜赢, 等. 基于本体的数字图书馆检索模型研究( Ⅱ 451 - 461. ( Dong Hui, Yu Chuanming, Jiang Ying, et al. Research on the ontologybased retrieval model of digital liJ] . Journal of the China Society for Scientific and Technical Information, brary( II) —Semantic information acquisition [ 2006( 4) : 451 - 461. ) [ 19] 刘炜. 基于本体的数字图书馆语义互操作 [ D ] . 上海: 复旦大学, 2006. ( Liu Wei. Ontologybased semantic interoperaD ] . Shanghai: Fudan University, 2006. ) bility for digital libraries[ [ 20] 韩毅. 语义网格环境下数字图书馆知识组织策略与应用研究 [ D ] . 长春: 吉林大学, 2008. ( Han Yi. Study on digital 2013 年 11 月 November, 2013
038
2008. ) ty,
Journal of Library Science in China
library knowledge organization strategy and application under semantic grid environment[ D ] . Changchun: Jilin Universi[ 21] 牟冬梅. 数字图书馆知识组织语义互联策略及其应用研究 [ D ] . 长春: 吉林大学, 2009. ( Mou Dongmei. Study on seD ] . Changchun: Jilin Universimantic interconnection strategy and application on digital library knowledge organization[ 2009. ) ty, 22] 滕广青. 基于概念格的数字图书馆知识组织研究 [ D ] . 长春: 吉林大学, 2012. ( Teng Guangqing. Research on knowl[ edge organization based on concept lattice of digital library[ D ] . Changchun: Jilin University, 2012. ) [ 23] 董慧, — —历史领域知识推理机制 [ J] . 情报学报, 余传明, 徐国虎, 等. 基于本体的数字图书馆检索模型研究( Ⅳ) — 2006( 6) : 666 - 678. ( Dong Hui, Yu Chuanming, Xu Guohu, et al. Research on ontologybased retrieval model of digital library( Ⅳ) — — —Inference mechanism of history domain knowledge[ J] . Journal of the China Society for Scientific and Technical Information, 2006( 6) : 666 - 678. ) 24] 刘成山, [ J] . 情报杂志, 2008( 1) : 49 - 54. ( Liu Chengshan, Liu Huailiang. Digit[ 刘怀亮. 基于语义网的数字图书馆 al library based on semantic web[ J] . Journal of Information, 2008( 1) : 49 - 54. ) 25] 贾保先, J] . 聊城大学学报( 自然科学版) , 2009 [ 鲍素贞, 杨吉宏. 虚拟数字图书馆语义平台建设关键技术研究[ ( 4) : 93 - 96. ( Jia Baoxian, Bao Suzhen, Yang Jihong. Research on key issues of virtual digital library semantic platform [ J] . Journal of Liaocheng University ( Natural Science Edition) , 2009( 4) : 93 - 96. ) 26] 董慧, )— — —体系结构解析 [ J] . 情报学报, 2006( 3) : 269 [ 杨宁, 余传明, 等. 基于本体的数字图书馆检索模型研究(Ⅰ - 275. ( Dong Hui, Yang Ning, Yu Chuanming, et al. Research on the ontologybased retrieval model of digital library (Ⅰ ) —Explanation of the architecture[ J] . Journal of the China Society for Scientific and Technical Information, 2006 ( 3) : 269 - 275. ) [ 27] 董慧, — —历史领域资源本体构建[ J] . 情报学报, 余传明, 杨宁, 等. 基于本体的数字图书馆检索模型研究( Ⅲ) — 2006( 5) : 564 - 574. ( Dong Hui, Yu Chuanming, Yang Ning, et al. Research on the ontologybased retrieval model of — —History domain ontology building[ J] . Journal of the China Society for Scientific and Technical digital library( Ⅲ) — Information, 2006( 5) : 564 - 574. ) 28] 潘伟. 个性化信息服务的关键技术— — —聚类分析 [ J] . 现代情报, 2007( 10) : 212 - 214. ( Pan Wei. Personalized in[ J] . Modern Information, 2007( 10) : 212 - 214. ) formation service key technologies—cluster analysis[ 29] 李静. 数据挖掘技术在高校图书馆个性化服务中的应用研究 [ D ] . 天津: 天津大学, 2012. ( Li Jing. Study and appli[ cation of data mining technology in personalized service of the university libraries [D] . Tianjin: Tianjin University, 2012. ) [ 30] 赵红霞. 数据挖掘技术和 RSS 技术在图书馆个性化服务中的应用[ D] . 郑州: 解放军信息工程大学, 2008. ( Zhao D ] . Zhengzhou: The PLA InforHongxia. Data mining technology and RSS technical on electronic library application[ mation Engineering University, 2008. ) [ 31] 周庆. 图书馆个性化信息服务的技术支持 [ J] . 大学图书情报学刊, 2008 ( 6) : 60 - 64. ( Zhou Qing. The technology J] . Journal of Academic Library and Information Science, support to the individualized information service in libraries[ 2008( 6) : 60 - 64. ) [ 32] 张炜, [ J] . 图书馆论坛, 2010( 1) : 62 - 64. ( Zhang 洪霞. 基于 OPAC 读者行为挖掘的个性化服务系统关键技术分析 Wei,Hong Xia. The analysis of key technology in individual service system based on the OPAC reader behavior excavaJ] . Library Tribune, 2010( 1) : 62 - 64. ) tion[ [ 33] 王思丽, J] . 现代图书情报技术, 2011 ( 11 ) : 17 - 23. 祝忠明. 利用关联数据实现机构知识库的语义扩展研究[ ( Wang Sili, Zhu Zhongming. Study on the semantic expansion of institutional repository based on linked data[ J] . New 2011( 11) : 17 - 23. ) Technology of Library and Information Science, [ 34] 贺德方, [ J] . 中国图书馆学报, 2012( 4) : 79 - 87. ( He Defang,Zeng 曾建勋. 基于语义的馆藏资源深度聚合研究 总第三九卷 第二〇八期 Vol. 39. No. 208
楼 雯: 馆藏资源语义化关键技术及实证研究 Lou Wen: An Empirical Study on Key Technologies of Library Resource Semantization
039
Jianxun. Study on indepth integration of library collections based on semantics[ J] . Journal of Library Science in Chi2012( 4) : 79 - 87. ) na, [ 35] 邱均平, [ J] . 中国图书馆学报, 2012( 4) : 71 - 78. ( Qiu Junping, 余凡. 基于计量分析的馆藏资源语义化理论研究 Yu Fan. Theoretical research on semantization of library resources based on informetric analysis [ J] . Journal of Library 2012( 4) : 71 - 78. ) Science in China, 36] 邱均平, J] . 中国图书馆学报, 2012 ( 6 ) : 89 - 99. ( Qiu Junping,Lou [ 楼雯. 基于共现分析的语义信息检索研究[ Wen. Semantic information retrieval research based on cooccurrence analysis [ J] . Journal of Library Science in China, 2012( 6) : 89 - 99. ) [ 37] 符福垣, )[ J] . 情报科学, 1985( 6) : 72. ( Fu Fuyuan,Wu Xianhu. Basic concepts 吴显沪. 情报科学的基本概念( 三 of information science( Ⅲ )[ J] . Information Science, 1985( 6) : 72. ) [ 38] 袁璐, J] . 计算机工程与应用, 2012 ( 9 ) : 138 - 141. 蒙祖强, 许珂. 依存分析和 HMM 相结合的信息抽取方法[ ( Yuan Lu, Meng Zuqiang, Xu Ke. Method of text information extraction based on dependency parsing and HMM [ J] . Computer Engineering and Applications, 2012( 9) : 138 - 141. ) 39] 熊回香, [ J] . 图书情报工作, 2008( 4) : 81 - 84. ( Xiong Huixiang,Xia Lixin. The review [ 夏立新. 汉语分词技术综述 of Chinese automatic word segmentation technology [ J] . Library and Information Service, 2008( 4) : 81 - 84. ) [ 40] ICTCLAS 汉语分词系统[ EB / OL] .[ 2013 - 05 - 01] . http: / / ictclas. org / index. html. ( ICTCLAS Chinese word seg[ EB / OL] .[ 2013 - 05 - 01] . http: / / ictclas. org / index. html. ) mentation system [ 41] 分词算法 [ EB / OL] .[ 2013 - 05 - 02] . http: / / blog. csdn. net / cozmic / article / details /659591. ( Segmentation[ EB / OL] . [ 2013 - 5 - 2] . http: / / blog. csdn. net / cozmic / article / details /659591. ) 42] 丁卓冶. 中文命名实体识别的研究 [ D ] . 大连: 大连理工大学, 2008. ( Ding Zhuozhi. A study on Chinese named entity [ recognition[ D ] . Dalian: Dalian University of Technology, 2008. ) 43] 潘家铭. 基于 Wikipedia 的中文命名实体识别研究[ D] . 广州: 中山大学, 2008. ( Pan Jiaming. A study on Chinese [ D ] . Guangzhou: Sun Yatsen University, 2008. ) named entity recognition based on Wikipedia [ [ 44] Velardi P, Missikoff M, Basili R. Identification of relevant terms to support the construction of domain ontology[ C]/ / PA: AssociaProceedings of the workshop on Human Language Technologies and Knowledge Management. Stroudsburg, 2001: 1 - 8. tion for Computational Linguistics, [ 45] Tversky A. A feature of similarity[ J] . Psychological Review, 1977, 84( 4) : 327 - 352. [ 46] Valerie C. Fuzzy semantic distance measures between ontological concepts [ J] . IEEE Annual Meeting of the Fuzzy Information, 2004: 635 - 640. [ 47] Rodriguez M A, Egenhofer M J. Determining semantic similarity among entity classes from different ontologies[ J] . IEEE 2003, 15( 2) : 442 - 456. Transactions on Knowledge and Data Engineering, [ 48] Macqueen J. Some methods for classification and analysis of multivariate observations[ C]/ / Lucien M, Le C, Jerzy N. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California 1967, 281 - 297. Press, [ 49] Ng R, Han J. Efficient and effective cluster method for spatial data mining[ C]/ / Bocca J, Darke M, Zanio C. Proceedings of the 20th International Conference of Very Large Data Bases. San Francisco,CA: Morgan Kaufmann Publisher, 1994: 144 - 155. [ 50] Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases[ C]/ / Laura M H,Ashutosh T. Proceedings of the ACM SIGMOD Conference, Seattle, Washington: ACM Press, 1998: 73 - 84. [ 51] Ester M, Kriegel H P, Sander J, et al. Adensitybased algorithm for discovering clusters in large spatial databases with C]/ / Evangelos S,Jiawei H,Usama M F. Proceedings of the 2nd ACM SIGKDD International Conference on noise[ Knowledge Discovery and Data Mining. Portland, Oregon: AAAI Press, 1996: 226 - 231. 2013 年 11 月 November, 2013
040
Journal of Library Science in China
英法两国分别实施网络资源法定呈缴制度
英国自2013年4月6日起正式实施电子出版物法定呈缴制度。 电子书、 电子期刊以及可被存储在 CDROM 和从网站下载的电子出版物等网络电子资源, 将被送存至大英图书馆为首的六家图书馆, 以实施对 国家文化和数字格式内容的收集和保存。 法国在2006年8月1日通过的法国文化遗产规章( Code du patrimoine) 规定, 法定呈缴制度的覆盖范围 延伸至互联网领域。 法国国家图书馆可以对法国境内的网站资源进行采集、 保存, 并向公众开放, 出版商 不能阻挠图书馆的采集工作, 并应该向法国国家图书馆提供在线资源。 根据2012年12月公布的新修法令, 法国国家视听研究院( Inathèque de France) 负责采集与视听通信相关的网站( 以广播电视为主) , 法国国 “任何在法国出版( 或进口) ” 2013年8月法国国家图 家图书馆负责采集其他所有类型的网站, 收集 的资源。 书馆已发布工作进展以及问题释疑。 “电子出版物” 显然, 英法两国的实施路径有别: 英国由六家图书馆联合实施将呈缴范围扩大到 的法 “数字资 定呈缴制度, 法国则是将网络典藏归属在文化遗产保护的范畴中, 对包括互联网网站内容在内的 源” 进行采集。 英法两国国家图书馆的网络资源典藏制度, 对欧盟乃至世界范围的国家图书馆推动相关工 作具有引领作用。 资料来源 1. Introduction to legal deposit. http: / / bl. uk / aboutus / legaldeposit / introduction / index. html. 2. Legal deposit for websites and electronic publications. http: / / bl. uk / aboutus / legaldeposit / websites / index. html. Releases / Clicktosavethena3. Click to save the nation's digital memory. http: / / pressandpolicy. bl. uk / Presstionsdigitalmemory61b. aspx. 4. Qu'est-ce que le dép?t légal? http: / / bnf. fr / fr / professionnels / depot_legal_definition / s. depot_legal_mission. html. 5. Digital legal deposit. http: / / bnf. fr / en / professionals / digital_legal_deposit. html. ( 顾立平 姚伟欣 张舵 整理)
[ 52] Wang W, Yang J, Muntz R. STING: A statistical information grid approach to spatial data mining[ C]/ / Matthias J, Michael J C, Klaus R D,et al. Proceedings of the 23rd Conference on VLDB. Athens,Greece: Morgan Kaufmann, 1997: 186 - 195. [ 53] Chang Rui, Liu Zhiyi. An improved Apriori algorithm [ C]/ / Proceedings of 2011 International Conference on Electronics and Optoelectronics. Washington, DC: IEEE Computer Society, 2011: 476 - 478.
楼 雯 武汉大学信息管理学院博士研究生。通讯地址: 武汉大学信息管理学院。邮编: 430072。 ( 收稿日期: 2013 - 05 - 03)
总第三九卷 第二〇八期 Vol. 39. No. 208
本文关键词:馆藏资源语义化关键技术及实证研究,由笔耕文化传播整理发布。
本文编号:230389
本文链接:https://www.wllwen.com/wenshubaike/xxkj/230389.html