当前位置:主页 > 科技论文 > 信息工程论文 >

哈萨克语文本分类系统的设计和实现.pdf 全文免费在线阅读

发布时间:2016-11-03 13:10

  本文关键词:哈萨克语文本分类系统的设计与实现,由笔耕文化传播整理发布。


网友pk5235近日为您收集整理了关于哈萨克语文本分类系统的设计和实现的文档,,希望对您的工作和学习有所帮助。以下是文档介绍:论文题目哈萨克语文本分类系统的设计与实现专业学位类别工程硕士学号 201192232224作者姓名木回提指导教师王佳昊副教授分类号密级UDC注 1学位论文哈萨克语文本分类系统的设计与实现(题名和副题名)木回提(作者姓名)指导教师王佳昊副教授电子科技大学成都张杰高工新疆金牛生物有限公司乌鲁木齐(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期 2014.3.25 论文答辩日期 2014.5.9学位授予单位和日期电子科技大学 2014 年 6 月 25 日答辩委员会主席评阅人注 1:注明《国际十进分类法 UDC》的类号。DESIGN AND IMPLEMENTATION OF KAZAKTEXT CATEGORIZATION SYSTEMA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor: Master of EngineeringAuthor: Mu HuitiAdvisor: Wang JiahaoSchool : S(来源:[])chool of Information and Software Engineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名: 日期: 年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名: 导师签名:日期: 年月日摘要I摘要近些年随着计算机技术在新疆少数民族地区的广泛应用,基于哈萨克文的电子文档也逐渐增加,并且堆积起来。如何(来源:[])对这些越来越多的电子文档数据进行有效的管理,并为广大的用户提供方便快捷的信息检索成为了数据挖掘技术的一个重要内容。文本分类就是针对于这一问题的一门技术,并为此提出了一系列的解决方案。文本分类这一人工智能信息处理技术,主要应用于信息的过滤、信息的检索、数据库应用和数字图书馆建设等领域。文本分类就是将待分类的文本根据内容自动划分到预先规定好的类别中。文本分类的步骤一般包括文本预处理、特征选择、特征权值计算、分类和性能评估等。特征权重计算是文本分类中关键的一个环节,关系到文本分类的最终结果和质量。传统的特征权重计算算法 IDFTF - 是重点考虑该特征项在一篇文本中出现的次数,同时在其他文本中出现较少这样的特性。在特征选择的过程中实现了利用词频统计信息和语言信息相结合的方法,计算特征项词汇的权重值时不仅考虑词频,还对特征项词汇的集中度、分散度进行计算。利用上述信息对训练集文本和测试集文本中的每一类文本形成特征项词汇的权重向量,形成所有训练集文本的多维向量空间,并利用 K 最近距离方法得到对测试集文(来源:[])本的分类结果。通过此方法有效提高了哈萨克文文本分类的准确率,取得了较好的效果。本文利用 K 最近距离方法,对哈萨克语文本信息进行分类研究(主要针对哈萨克文报纸中的文本),介绍了文本分类的相关技术及有关算法,利用软件工程的基本思想设计并实现了一个用于哈萨克语文本的分类系统。本系统分为以下几个部分:(1)哈萨克语文本预处理模块,主要处理哈萨克文的分词,词干提取和停用词过滤;(2)词频统计模块,按照 K 最近距离方法的要求以及特征选取算法的特点从哈萨克语文本中统计文档中特征词的出现频率;(3)特征选择模块;(4)权重计算模块,实现TF 和 IDFTF - 的计算;(5)分类器实现算法,实现 K 最近距离的哈萨克语文本分类算法;(6)分类器评价模块,从查全率、查准率等方面进行评价。同时进行了一定的软件测试方面的工作。关键词:哈萨克语文本,文本分类,K 最近距离算法,特征选择,权重计算ABSTRACTIIABSTRACTWith the extensive application puter tech(来源:[])nology in recent years in theminority areas of Xinjiang, Kazakh-based electronic document is also increasing, andpile up. How many of these more effective electronic document data management, andfor the majority of users to provide convenient and efficient information retrieval e an important data mining technology content. Text classification is for atechnology to this problem, and has proposed a series of solutions. The artificialintelligence of (来源:[])text classification information processing technology , mainly used infiltering information in the field of information retrieval , database applications anddigital library construction.Text classification is to divide a large text document into one or a group ofcategories, making the content of each category represents a different theme.At present, the text classification mainly us

12>



播放器加载中,请稍候...
系统无法检测到您的Adobe Flash Player版本
建议您在线安装最新版本的Flash Player 在线安装


  本文关键词:哈萨克语文本分类系统的设计与实现,由笔耕文化传播整理发布。



本文编号:163022

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/163022.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24044***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com