基于描述逻辑的Web文本挖掘
发布时间:2021-06-17 18:46
近年来伴随人工智能(Artificial Intelligence)的发展,描述逻辑(Description Logics,简写为DLs)这种底层技术研究也变为研究热点。事实上描述逻辑不仅在人工智能方面有成就,在农业、天文学、基因工程、信息安全、能源管理、地球科学、机械等多种领域都有应用。尤其在OWL2标准下,弥补OWL标准的不足,促使Web本体语言上得到了长足发展。与此同时Web发展也相当迅速,根据中国互联网信息中心(CNNIC)的统计报告,截至2018年6月我国的网站数量已经达到了544万个。如此规模的网站给精确搜索和Web文本内容的潜在语义(Latent Semantic)发现带来不小压力。为了解决Web上潜在数据关系处理的问题,在Web文本挖掘过程中引入描述逻辑用来进行知识表示。Web文本挖掘过程分为三步:Web数据预处理(包含数据抽取);Web文本挖掘;后续处理和结果评价。本文的侧重点在Web文本挖掘和结果评价上。由于Web页面具有其复杂性,具体体现在它的非结构化数据形式上,前期处理可采用简单的数据处理技术,将其中的声音、图片、视频信息等进行删除,仅保留文本数据。本文分别介绍...
【文章来源】:沈阳师范大学辽宁省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
ALCABox算法规则描述逻辑是一阶逻辑的一个可判定子集,因而能够构造出可靠完全的tableau
的 n 元关系,由此产生了 DLRn 元描述逻辑。在后续的C-language 描述逻辑和统一存在量化的 ALC-language 描本挖掘挖掘涉及到的关键问题有聚类、分类、信息抽取和检索是一个有监督的学习过程,它根据已标记的训练集合找间的关系模型,然后利用这种学习到的关系模型对新的 Web 文本对象按照一定规则划分成不同的类别,使得相似度低,这一过程就称为聚类。Web 文本聚类是无监督类方法有 K-Means、K-medoids,是基于距离的聚类,于网格的方法等。文本聚类模型如图 2-3,首先对文本,然后使用算法对文本聚类成各个簇。Web 文本聚类搜索引擎有很大帮助。
图 2-6 XML Schema 片段使用描述逻辑进行推理其所基于的知识库里包含两种子库,一种是 TBox,包含了 HTML 的各种术语即标签名称,另一种是 ABox,所包含 HTML 的具体属性断言。知识库表示为 К=<TBox,ABox>。TBox 是一个有限集合,TBox 通过概念描述的定义构造,里面包含术语知识 TBox 通常由具有有限个包含关系的数学结构集合表示[34]。如图 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【参考文献】:
期刊论文
[1]基于ALCIF描述逻辑的Web页面聚类[J]. 富豪,邓立国. 现代计算机. 2019(12)
[2]基于OWL+SKOS的期刊本体构建与应用[J]. 罗婷婷,李娇,鲜国建,赵瑞雪,寇远涛. 数字图书馆论坛. 2018(12)
[3]基于k-means++的多分类器选择分类研究[J]. 熊霖,唐万梅. 重庆师范大学学报(自然科学版). 2018(06)
[4]模糊OWL 2本体到模糊关系数据库映射形式化方法[J]. 李卫军,马宗民,严丽,张富. 东北大学学报(自然科学版). 2018(04)
[5]描述逻辑εL■和εLU■表达力的刻画与比较[J]. 申宇铭,郝天永,张倩生. 计算机学报. 2018(04)
[6]EXPRESS向OWL2本体模型自动转换研究[J]. 袁满,刘峰. 吉林大学学报(信息科学版). 2018(01)
[7]C-OWL2:OWL2在云模型上的扩展[J]. 骆力明,刘王宁,刘杰,周建设,史金生. 北京理工大学学报. 2017(12)
[8]结合内容和标签的Web文本聚类研究[J]. 顾晓雪,章成志. 现代图书情报技术. 2014(11)
[9]基于主题的Web文本聚类方法[J]. 张万山,肖瑶,梁俊杰,余敦辉. 计算机应用. 2014(11)
[10]一种基于本体相似度计算的文本聚类算法研究[J]. 王刚,钟国祥. 计算机科学. 2010(09)
博士论文
[1]面向自由文本的细粒度关系抽取的关键技术研究[D]. 朱倩.江苏大学 2011
[2]模糊数据库支持的模糊描述逻辑与本体知识库抽取和存储关键技术的研究[D]. 张富.东北大学 2011
[3]模糊描述逻辑本体合取查询研究[D]. 程经纬.东北大学 2010
硕士论文
[1]基于一阶逻辑的知识表示与自动提取[D]. 王勇.电子科技大学 2015
本文编号:3235725
【文章来源】:沈阳师范大学辽宁省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
ALCABox算法规则描述逻辑是一阶逻辑的一个可判定子集,因而能够构造出可靠完全的tableau
的 n 元关系,由此产生了 DLRn 元描述逻辑。在后续的C-language 描述逻辑和统一存在量化的 ALC-language 描本挖掘挖掘涉及到的关键问题有聚类、分类、信息抽取和检索是一个有监督的学习过程,它根据已标记的训练集合找间的关系模型,然后利用这种学习到的关系模型对新的 Web 文本对象按照一定规则划分成不同的类别,使得相似度低,这一过程就称为聚类。Web 文本聚类是无监督类方法有 K-Means、K-medoids,是基于距离的聚类,于网格的方法等。文本聚类模型如图 2-3,首先对文本,然后使用算法对文本聚类成各个簇。Web 文本聚类搜索引擎有很大帮助。
图 2-6 XML Schema 片段使用描述逻辑进行推理其所基于的知识库里包含两种子库,一种是 TBox,包含了 HTML 的各种术语即标签名称,另一种是 ABox,所包含 HTML 的具体属性断言。知识库表示为 К=<TBox,ABox>。TBox 是一个有限集合,TBox 通过概念描述的定义构造,里面包含术语知识 TBox 通常由具有有限个包含关系的数学结构集合表示[34]。如图 2-7 所示。TBox XML StructuredThing hasRoot.RootElement hasRoot.RootElement,Element hasName.String hasChild.Element hasChildren.ElementCollection hasAttribute.Attribute hasData.string followedBy.Element,ComplexElement Element hasChild.Element hasChildren.ElementCollection,SimpleElement Element hasChild. ,MixedContentElement ComplexElement hasChild.Element hasData.string,
【参考文献】:
期刊论文
[1]基于ALCIF描述逻辑的Web页面聚类[J]. 富豪,邓立国. 现代计算机. 2019(12)
[2]基于OWL+SKOS的期刊本体构建与应用[J]. 罗婷婷,李娇,鲜国建,赵瑞雪,寇远涛. 数字图书馆论坛. 2018(12)
[3]基于k-means++的多分类器选择分类研究[J]. 熊霖,唐万梅. 重庆师范大学学报(自然科学版). 2018(06)
[4]模糊OWL 2本体到模糊关系数据库映射形式化方法[J]. 李卫军,马宗民,严丽,张富. 东北大学学报(自然科学版). 2018(04)
[5]描述逻辑εL■和εLU■表达力的刻画与比较[J]. 申宇铭,郝天永,张倩生. 计算机学报. 2018(04)
[6]EXPRESS向OWL2本体模型自动转换研究[J]. 袁满,刘峰. 吉林大学学报(信息科学版). 2018(01)
[7]C-OWL2:OWL2在云模型上的扩展[J]. 骆力明,刘王宁,刘杰,周建设,史金生. 北京理工大学学报. 2017(12)
[8]结合内容和标签的Web文本聚类研究[J]. 顾晓雪,章成志. 现代图书情报技术. 2014(11)
[9]基于主题的Web文本聚类方法[J]. 张万山,肖瑶,梁俊杰,余敦辉. 计算机应用. 2014(11)
[10]一种基于本体相似度计算的文本聚类算法研究[J]. 王刚,钟国祥. 计算机科学. 2010(09)
博士论文
[1]面向自由文本的细粒度关系抽取的关键技术研究[D]. 朱倩.江苏大学 2011
[2]模糊数据库支持的模糊描述逻辑与本体知识库抽取和存储关键技术的研究[D]. 张富.东北大学 2011
[3]模糊描述逻辑本体合取查询研究[D]. 程经纬.东北大学 2010
硕士论文
[1]基于一阶逻辑的知识表示与自动提取[D]. 王勇.电子科技大学 2015
本文编号:3235725
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3235725.html
最近更新
教材专著