当前位置:主页 > 社科论文 > 图书档案论文 >

文本分类技术在数字图书馆中的应用与研究

发布时间:2020-07-07 23:30
【摘要】: 分类作为人类认识世界的一种重要认知手段已经存在很长时间。计算机的问世与普及使用,使得分类成为计算机及相关领域的研究重点,特别是Internet出现以后,在线文本文档剧增,文本的分类就成为广泛关注和研究的关键技术之一。 文本分类的一个重要应用领域是数字图书馆。目前,数字图书馆正成为全球范围内信息基础设施建设的热点领域,是二十一世纪全球文化与科技竞争的焦点之一,而数字图书馆建设的基础是元数据的组织和建设。元数据是关于数据的结构化数据,为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。 本文就文本分类及其在数字图书馆中的应用进行研究,主要涉及以下4个问题:训练文档的支持向量预抽取、文本特征评估、元数据自动抽取、知识本体元数据。 1.定义了凸包相对边界向量方法,获取凸包边界上的边界向量,然后依此边界向量为训练样本来求解支持向量,简化求解二次规划的运算量,从而有效提高支持向量机的训练速度。 2.定义了文本特征评估方法,找出类别的重要特征和噪音特征,然后根据分类结果评估测试样本和训练样本的质量,优化和扩充文本库,逐步提高学习样本的质量、扩大文本库的范围,并根据样本质量修改样本在分类模型中的权重,提高分类系统的性能及其对不断变化的外界的适应性。 3.定义了元数据的抽取策略与抽取规则。在信息抽取的研究领域,有两条主要的技术路线:基于规则的路线与基于统计模型的路线。基于规则的主要思路是通过分类文本的特征、结构等信息,寻找到一些用于抽取的规则。基于统计模型的基本思想是寻找一个合适的模型,通过改变模型的参数和训练样本集合来达到对应用领域的适应。 4.提出了数字图书馆元数据的知识本体。元数据提供数字图书馆的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题,而本体能够对这些情况进行很好地描述,从而为信息的组织、管理以及检索、查询提供模型和方法。
【学位授予单位】:首都师范大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1;G250.76
【图文】:

最优超平面,超平面


+l}线性可分的情况下,用于分离的超平面形式的决策曲面方程是:wTx+b=0中,x是输入向量,woR”是可调的权值向量,boR是偏置。这样我们便以写成:b七。,对于y,=+1wTxl+b<O,对于y‘=一1此样本集最优分类,如果训量样本可以无误差地被划分,每一类数据与超离最近的向量与超平面之间的距离最大,此超平面称为最优超平面。其中,平面的法线方向。如图2所示。

网结构,本体,知识系统,斯坦福大学


图5.3TimBemers.Lee的语义网结构图美国斯坦福大学的知识系统实验室(K五owiedgesysternsLaboratory,KsL)在本体建模工具领域,还是在本体应用层面的研究方面,都站在了知识

本体,本体语言,描述语言


AML+oIL(nARRAAgentMarlkupLan,age+OntologyInferenceLayer)是两个组织共同协商的产物,它在最初的本体语言DAMLoNT的基础上很多OIL的语言组件发展而成。它从描述逻辑入手,建立于W3C标和RDF一S之上,并且以更丰富的建模原语扩展了RDF和RDF一S。DA是建立一项技术,使得智能主体能够动态地识别和理解信息资源,并以提供代理之间的互操作。OWLw以M阳bOniologyLanguage)是W3C推荐的语义互联网中本体描述语言它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起W3C提出的本体语言栈中,OWL处于最上层,如图5.4所示。

【相似文献】

相关期刊论文 前10条

1 蒲强;刘启和;杨国纬;;基于独立分量分析的图书馆个性化及时服务[J];计算机应用研究;2007年03期

2 叶福军;;文本数据挖掘在数字图书馆中的应用研究[J];硅谷;2009年07期

3 马强;;文本数据挖掘在数字图书馆中的应用研究[J];兰台世界;2009年24期

4 张欣;21世纪的图书馆——数字图书馆及其实现的要素[J];外交学院学报;1999年02期

5 王萍;;数字图书馆初露端倪[J];科学大众(中学版);1999年11期

6 李春茜,万坚军;数字图书馆及其信息组织与检索浅识[J];图书馆理论与实践;2001年01期

7 段梅,李小梅;浅谈数字图书馆[J];太原科技;2001年02期

8 宁淑华;数字图书馆与著作权保护[J];现代情报;2001年05期

9 刘志贤;论数字图书馆的合理使用[J];情报杂志;2002年09期

10 邱文杰;高校发展数字图书馆的对策浅谈[J];桂林航天工业高等专科学校学报;2002年04期

相关会议论文 前10条

1 刘颖;;论数字图书馆的信息构建[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年

2 郭启智;;关于数字图书馆有关问题的探讨[A];山西省科学技术情报学会学术年会论文集[C];2004年

3 符翠;;数字图书馆建设探讨[A];新环境下图书馆建设与发展——第六届中国社区和乡镇图书馆发展战略研讨会征文集(下册)[C];2007年

4 王爱华;张铭;陈捷;杨冬青;唐世渭;;基于形式本体的数字图书馆内容元数据的创建[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

5 高翔;;浅谈网站模式下的数字图书馆资源建设[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年

6 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

7 喻浩;潘薇;;数字图书馆支撑技术及其发展[A];数字图书馆资源建设与发展学术研讨会暨中国农学会农业图书馆分会理事工作会议会议资料[C];2007年

8 潘淑春;喻浩;;数字图书馆建设及其运行模式研究[A];数字图书馆资源建设与发展学术研讨会暨中国农学会农业图书馆分会理事工作会议会议资料[C];2007年

9 林英;;谈谈中国数字图书馆的研究、开发与建设[A];福建省图书馆学会2002年学术年会论文集[C];2002年

10 延宏;;数字图书馆:服务如何个性化[A];新观点新学说学术沙龙文集24:数字时代图书馆的创新与共享[C];2008年

相关重要报纸文章 前10条

1 本报记者 延宏;数字图书馆:服务如何个性化[N];科技日报;2008年

2 本报记者 洪黎明;数字出版与数字图书馆的互动[N];人民邮电;2008年

3 本报记者 诸葛漪;国内数字图书馆为何“起大早赶晚集”[N];解放日报;2009年

4 张宇;走在“云端”的数字图书馆[N];中国文化报;2010年

5 通讯员 邓尚新;洛浦数字图书馆正式启动[N];和田日报(汉);2010年

6 本报记者 姜天骄 文化部副部长 杨志今;让数字图书馆资源惠及更多基层群众[N];经济日报;2010年

7 本报记者 吴娜;让每个县都有数字图书馆[N];光明日报;2010年

8 记者 牛春梅;数字图书馆将覆盖全国[N];北京日报;2010年

9 记者 陈磊;我国数字图书馆侵权盗版现象普遍存在[N];科技日报;2010年

10 通讯员 傅晨琦 记者 叶辉;杭州数字图书馆率先实现网站、手机、电视“三网融合”[N];光明日报;2010年

相关博士学位论文 前10条

1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年

2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年

3 于晓燕;基于网格的数字图书馆模式构建研究[D];南开大学;2010年

4 周丽霞;数字图书馆版权获取研究[D];吉林大学;2011年

5 陆颖隽;虚拟现实技术在数字图书馆的应用研究[D];武汉大学;2013年

6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年

7 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年

8 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年

9 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年

10 孙坦;数字图书馆理论与发展模式研究[D];中国科学院文献情报中心;2000年

相关硕士学位论文 前10条

1 张超林;文本分类技术在数字图书馆中的应用与研究[D];首都师范大学;2007年

2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年

3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年

4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年

5 闫晨;KNN文本分类研究[D];燕山大学;2010年

6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年

7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年

8 罗宏;数字图书馆著作权风险规避研究[D];四川大学;2004年

9 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年

10 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年



本文编号:2745771

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2745771.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05865***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com