当前位置:主页 > 科技论文 > 信息工程论文 >

基于本体的文本聚类的应用研究

发布时间:2016-08-10 21:35

  本文关键词:基于本体的文本聚类的应用研究,,由笔耕文化传播整理发布。


《天津大学》 2012年

基于本体的文本聚类的应用研究

林利  

【摘要】:随着计算机的广泛使用与网络技术的深入发展,人们更多的将各种资料信息以电子文本的形式存储于计算机及网络空间中。这些文本信息的大规模增长,导致人们对信息的过滤、筛选出现困难,如何对这些文本进行比较或是对文档的相关性进行分析从中得到隐藏的、潜在的有用的信息,进而为人们的工作提供一定的指导与线索,成为了亟待解决的问题。 文本聚类技术是将文本集聚合为由若干个文本簇组成的集合,是一种无监督的文本处理方法。文本聚类方法作为文本数据挖掘领域中的主要方法之一,经常并有效的被用于信息检索领域。对大规模无规律的文本信息进行划分,是文本聚类的一个重要的应用研究。本文主要是将文本聚类技术应用于某单位所搜集的大量文本信息中,通过对其进行处理,将信息聚类,为该单位进一步的分析工作提供一定的线索。 本文介绍了文本聚类的概念,针对具体的应用需求,说明了聚类过程中的文本预处理、特征选择、文本向量表示及特征词的权重计算等方面的工作。针对文本聚类中忽略特征词之间的关系问题,本文引用了本体的知识。将HowNet知网作为本文的知识背景,对预处理后的文本进行同义词之间的合并,减少文本向量表示的维度,改善文本聚类的结果。此外,本文详细阐述了文本聚类的各种算法,表明各自的优缺点,从而选择合适的算法进行聚类研究,本文选取其中的三种聚类算法进行聚类。 本文将文本聚类技术在某单位所搜集的文本中进行了实验。通过文本聚类技术,将文本聚集成簇,取得了较好的实验结果。

【关键词】:
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前3条

1 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期

2 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期

3 顾芳;曹存根;;知识工程中的本体研究现状与存在问题[J];计算机科学;2004年10期

中国硕士学位论文全文数据库 前2条

1 艾伟;本体的构造及其应用研究[D];武汉理工大学;2005年

2 张睿;基于k-means的中文文本聚类算法的研究与实现[D];西北大学;2009年

【共引文献】

中国期刊全文数据库 前10条

1 谭娟;李伯虎;;面向语义的C4ISR/Sim集成系统设计[J];北京航空航天大学学报;2006年10期

2 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期

3 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期

4 唐培丽;解飞;陈志雨;;基于概念检索的中文搜索引擎研究[J];长春大学学报;2006年04期

5 张泽清;;基于领域本体的语义检索技术研究[J];赤峰学院学报(自然科学版);2011年06期

6 张泽清;;基于Ontology的人力资源语义检索技术研究[J];长春理工大学学报(自然科学版);2011年02期

7 李雪瑞;赵冬青;;空间信息本体的开发[J];测绘科学;2006年03期

8 魏震方;王世华;沈华;;位置服务上下文计算本体形式化实现方法[J];测绘科学;2010年01期

9 王素格;彭其伟;张武;;基于遗传算法的自然语言参数阈值优化方法[J];测试技术学报;2006年01期

10 林周佳;;基于语义网技术的数字化档案馆研究[J];档案与建设;2006年04期

中国重要会议论文全文数据库 前10条

1 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年

2 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年

3 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

5 王丹;赵荣娟;;P2P系统中一种基于代理的RDF文档查询模型[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

6 汪婷婷;吴军华;朱莹;刘一田;;基于RDF/XML的网格资源分层描述[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

7 蒋鹏;;基于本体的电子政务文档智能检索方法的研究[A];信息经济学与电子商务:第十三届中国信息经济学会学术年会论文集[C];2008年

8 林建祥;;LOGO思想与可拓、创新、智慧[A];第六届中国科学家论坛论文汇编[C];2007年

9 胡金柱;舒江波;陈志伟;杜志强;窦桂琴;;基于本体构件的工作流检索研究[A];第四届中国软件工程大会论文集[C];2007年

10 王红滨;刘大昕;;元数据提取综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 胡沙;面向服务的模具企业信息系统集成平台关键技术研究[D];华中科技大学;2010年

2 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年

3 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年

4 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年

5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

6 刘勇;基于本体的家电领域功能知识表达研究[D];中国海洋大学;2011年

7 汪楚娇;语义环境下提升机故障人工免疫诊断方法研究[D];中国矿业大学;2010年

8 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

9 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年

10 张小旺;超协调描述逻辑[D];北京大学;2011年

中国硕士学位论文全文数据库 前10条

1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年

2 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年

3 杨立志;基于语义网的图像检索算法的研究[D];广西师范学院;2010年

4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年

5 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年

6 芦荣松;基于产品研发的IGDSS知识表示及其推理机制研究[D];中国海洋大学;2010年

7 雷傲雄;基于本体的面向服务架构建模研究[D];江西师范大学;2010年

8 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年

9 杜海波;本体在医疗信息检索系统中的应用研究[D];长春工业大学;2010年

10 赵少华;基于本体论的汽车故障诊断知识建模及知识系统的研究[D];华东理工大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期

3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期

4 程少川,程向前,张朋柱;基于本体系统的知识管理人工智能研究[J];管理科学学报;2003年02期

5 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期

6 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期

7 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期

8 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期

9 马坚,楼宇波,张亮;基于本体的XML Schema生成方法[J];计算机工程与应用;2003年11期

10 龙昊;冯剑琳;李曲;;R-means:以关联规则为簇中心的文本聚类[J];计算机科学;2005年09期

【相似文献】

中国期刊全文数据库 前10条

1 李燕;张月国;李生红;;基于蚁群算法的文本分类和聚类[J];信息安全与通信保密;2009年10期

2 谭营军;李翠霞;;加权模糊C均值文本聚类算法研究及仿真[J];计算机仿真;2011年05期

3 童健华;谭洪舟;;一种基于人工免疫网络的文本聚类算法[J];计算机工程与科学;2007年10期

4 龚静;田小梅;;基于文本表示的特征项权值计算方法[J];电脑开发与应用;2008年02期

5 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期

6 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期

7 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期

8 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期

9 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期

10 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期

中国重要会议论文全文数据库 前10条

1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

6 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

7 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

8 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年

9 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

10 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

中国重要报纸全文数据库 前10条

1 中国科学院计算技术研究所 王 斌;[N];计算机世界;2004年

2 王培森;[N];中国计算机报;2003年

3 北京数码空间信息技术有限公司技术总监 刘斌;[N];计算机世界;2000年

4 本报记者 胡珉琦;[N];北京科技报;2011年

5 卢伟;[N];文艺报;2004年

6 记者 郑维富;[N];浙江日报;2004年

7 朱莉;[N];中国电脑教育报;2006年

8 俞扬;[N];泰州日报;2006年

9 林俊铭;[N];闽南日报;2008年

10 周小荣;[N];中国电脑教育报;2003年

中国博士学位论文全文数据库 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

4 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年

5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年

9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年

10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年

中国硕士学位论文全文数据库 前10条

1 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年

2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年

3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年

4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年

5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年

6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年

7 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年

8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年

9 陈小丽;基于SOM算法的中文文本聚类[D];南京理工大学;2008年

10 李海峰;基于概念格的Web文本聚类过程模型研究[D];吉林大学;2010年


  本文关键词:基于本体的文本聚类的应用研究,由笔耕文化传播整理发布。



本文编号:90999

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/90999.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户07607***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com