基于语义场模型的学科资源聚类及应用研究
本文关键词:基于语义场模型的学科资源聚类及应用研究
更多相关文章: 资源聚类 语义场 学科概念 特征选择与降维 语义引力 语义标签
【摘要】:教育资源是教学过程的重要组成部分,优质的教育资源能够帮助学习者获得更好的学习效果。随着信息技术的发展,教育资源的数量也在不断累积。而如何高效、清晰地组织这些资源,方便学习者使用,是数字化学习中必须解决的重要问题。资源聚类由于其不需要监督的特点成为资源组织中最常用的方式之一。资源聚类是指按照资源所包含的语义内容,将内容相似度较高、属于同一主题的资源划分为一个类别,并为每一个类别指定一个语义标签的过程。其研究的重点和难点在于,资源语义内容的表征方法、聚类特征的选择与降维以及类别标签的生成。本文围绕上述关键内容,针对通用的向量空间模型没有考虑词汇之间的联系的缺点,研究了基于语义场模型的资源聚类技术,具体的研究内容包括五个部分:(1)基于语义场模型的资源聚类框架;(2)面向学科的语义场构建方法;(3)基于语义场的特征选择与降维方法;(4)基于语义场的资源聚类算法;(5)资源聚类算法的应用研究。本文得到了国家863项目“知识浓缩与融合关键技术研究”(No.2008AA01Z127)和国家科技支撑计划项目“村镇教育资源配置及远程服务关键技术研究”(No.200603110400)的资助。 本文取得的研究成果包括以下几个方面: (1)针对向量空间模型没有考虑词汇之间联系的不足,论文提出了基于语义场模型的资源聚类框架。通过将场模型的基本思想引入语义研究中形成语义场模型,用于描述词汇之间的语义联系;通过研究语义场的数学模型,实现词汇语义的可表征和可计算;在语义场模型的基础上提出了基于语义场的资源聚类框架,该框架定义了资源的语义场强与资源之间语义引力的计算方法,从而将资源聚类问题转化为资源在语义引力作用下的凝聚问题,通过在聚类过程中融入资源特征之间的语义关系,提高资源之间相似度计算的准确率。 (2)针对手动构建学科语义场费时费力的问题,论文研究了面向教育技术学科的语义场自动构建方法。提出了基于原子词汇构词算法的学科专业术语抽取方法,通过以原子词汇作为构词的基本单位,提高了候选专业术语的准确率;通过学科概念的过滤与精炼,过滤候选专业术语中的非学科概念类字符串,提高概念识别的效率;通过学科概念直接关系的标注和基于解释结构模型法的间接关系推理算法,构建了学科概念之间的层次关系结构图;对学科语义场模型的相关参数如语义概念的质量、语义势能的调节参数进行了估算,构建出了面向教育技术学科领域的语义场。 (3)针对聚类算法中特征选择没有训练语料的问题,采用学科语义场作为学科先验知识来指导语义特征的选择。分析了将学科概念作为语义特征在特征选择中的重要意义,并在预处理过程中加入学科概念作为语义特征,提高资源语义表征的准确率;提出了语义特征向学科概念的映射方法,提高语义特征的规范性和聚类结果的准确率;提出了基于语义场模型的语义特征约简方法,实现语义特征的约简,降低资源语义特征的维度,提高学科资源聚类的效率。 (4)针对资源聚类时未考虑词汇之间语义联系的不足,研究了基于语义场模型的资源聚类算法。引入语义引力的概念来模拟资源之间的相互吸引,从而将资源凝聚为多个类簇,缓解了资源聚类过程中未考虑词汇之间语义联系的不足,提高了资源聚类的准确率;提出了基于语义场的类别标签抽取方法,从而保证了类别标签的可理解性、准确性和区分度。 综合上述研究成果,实现了一个面向学科的资源检索系统。该系统的主要功能包括学科资源检索、资源语义聚类和聚类结果的可视化呈现等。该系统可以为用户提供细粒度的资源检索与聚类服务,满足教育资源应用的需求。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1;G40-057
【参考文献】
中国期刊全文数据库 前10条
1 黄献;;语义场的逻辑解读[J];广西社会科学;2010年10期
2 周颖;杨炳儒;;基于语言场理论的连续属性离散化方法及实现[J];计算机科学;2003年05期
3 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
4 杨炳儒;钱榕;张伟;;语言场理论及其在知识发现中的应用[J];计算机工程;2005年24期
5 周强,冯松岩;构建知网关系的网状表示[J];中文信息学报;2000年06期
6 涂新辉;张红春;周琨峰;何婷婷;;中文维基百科的结构化信息抽取及词语相关度计算方法[J];中文信息学报;2012年03期
7 李晓建,陈磊,陈世鸿;教育资源语义模型研究[J];武汉大学学报(理学版);2005年03期
8 梅家驹 ,竺一鸣 ,高蕴琦 ,殷鸿翔;语义场和语义体系[J];外国语(上海外国语学院学报);1987年03期
9 李敦之;;语义场分析矩阵[J];西安工业学院学报;2005年06期
10 陈浩;何婷婷;姬东鸿;;基于MDL聚类的无导词义消歧[J];小型微型计算机系统;2005年10期
中国博士学位论文全文数据库 前4条
1 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
2 顾芳;多学科领域本体设计方法的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
4 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
,本文编号:1265346
本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/1265346.html