哈萨克语文本分类系统的设计与实现
本文关键词:哈萨克语文本分类系统的设计与实现,,由笔耕文化传播整理发布。
《电子科技大学》 2014年
哈萨克语文本分类系统的设计与实现
木回提
【摘要】:近些年随着计算机技术在新疆少数民族地区的广泛应用,基于哈萨克文的电子文档也逐渐增加,并且堆积起来。如何对这些越来越多的电子文档数据进行有效的管理,并为广大的用户提供方便快捷的信息检索成为了数据挖掘技术的一个重要内容。文本分类就是针对于这一问题的一门技术,并为此提出了一系列的解决方案。文本分类这一人工智能信息处理技术,主要应用于信息的过滤、信息的检索、数据库应用和数字图书馆建设等领域。文本分类就是将待分类的文本根据内容自动划分到预先规定好的类别中。文本分类的步骤一般包括文本预处理、特征选择、特征权值计算、分类和性能评估等。特征权重计算是文本分类中关键的一个环节,关系到文本分类的最终结果和质量。传统的特征权重计算算法IDFTF-是重点考虑该特征项在一篇文本中出现的次数,同时在其他文本中出现较少这样的特性。在特征选择的过程中实现了利用词频统计信息和语言信息相结合的方法,计算特征项词汇的权重值时不仅考虑词频,还对特征项词汇的集中度、分散度进行计算。利用上述信息对训练集文本和测试集文本中的每一类文本形成特征项词汇的权重向量,形成所有训练集文本的多维向量空间,并利用K最近距离方法得到对测试集文本的分类结果。通过此方法有效提高了哈萨克文文本分类的准确率,取得了较好的效果。本文利用K最近距离方法,对哈萨克语文本信息进行分类研究(主要针对哈萨克文报纸中的文本),介绍了文本分类的相关技术及有关算法,利用软件工程的基本思想设计并实现了一个用于哈萨克语文本的分类系统。本系统分为以下几个部分:(1)哈萨克语文本预处理模块,主要处理哈萨克文的分词,词干提取和停用词过滤;(2)词频统计模块,按照K最近距离方法的要求以及特征选取算法的特点从哈萨克语文本中统计文档中特征词的出现频率;(3)特征选择模块;(4)权重计算模块,实现TF和IDFTF-的计算;(5)分类器实现算法,实现K最近距离的哈萨克语文本分类算法;(6)分类器评价模块,从查全率、查准率等方面进行评价。同时进行了一定的软件测试方面的工作。
【关键词】:
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52;TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前3条
1 吐尔根·依布拉音;袁保社;;新疆少数民族语言文字信息处理研究与应用[J];中文信息学报;2011年06期
2 艾海麦提江·阿布来提;吐尔地·托合提;艾斯卡尔·艾木都拉;;基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J];计算机应用与软件;2012年12期
3 耿世民;;哈萨克族的语言和文字[J];西北民族研究;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 李淑霞;马英连;;新疆哈萨克文字地图的编制[J];测绘标准化;2008年01期
2 穆妮热·穆合塔尔;艾孜尔古丽;玉素甫·艾白都拉;;现代维吾尔语简单句识别研究[J];计算机光盘软件与应用;2014年13期
3 杨建萍;年梅;买日叶木·卡地尔;;维吾尔文初中生物教材中生物词汇的统计分析[J];电脑知识与技术;2015年13期
4 王亚娟;;面向机器翻译的汉维词语对齐规范研究[J];电脑知识与技术;2015年20期
5 莫礼平;曾水玲;周恺卿;;音形结合的方块苗文输入编码方案研究[J];计算机科学与探索;2014年08期
6 买买提依明·哈斯木;吾守尔·斯拉木;维尼拉·木沙江;努尔麦麦提·尤鲁瓦斯;;基于统计专用字符的维、哈、柯文文种识别研究[J];中文信息学报;2015年02期
7 李波;王江晴;魏红昀;孙阳光;王新年;徐凌;;一种女书手写字符规范字形自动生成方法[J];中文信息学报;2015年02期
8 柯庆梅;;Characteristics Studies on Kazak Place Names in Ili Kazak Autonomous Prefecture[J];海外英语;2015年17期
9 邹岳琳;吐尔根·依布拉音;麦热哈巴·艾力;艾山·吾买尔;帕力旦·吐尔逊;;基于词干提取的维吾尔语事件类时间短语识别[J];计算机工程与设计;2014年02期
10 阿米妮古丽·奥斯曼;加日拉·买买提热依木;吐尔根·依布拉音;;维汉/汉维机器翻译译后编辑器的设计与实现[J];新疆大学学报(自然科学版);2013年04期
中国博士学位论文全文数据库 前2条
1 朱泽德;网络双语语料挖掘关键技术研究[D];中国科学技术大学;2014年
2 麦热哈巴·艾力;基于实例的维汉机器翻译若干关键问题研究[D];新疆大学;2014年
中国硕士学位论文全文数据库 前10条
1 黄小勇;独立后吉尔吉斯斯坦语言政策及其特征研究[D];新疆师范大学;2011年
2 李萍;高考信息采集与考务管理系统多语言支持研究[D];新疆农业大学;2008年
3 仲崇峰;哈萨克语中的汉语借词研究[D];中央民族大学;2009年
4 卡哈尔江·阿比的热西提;基于实例的汉维—维汉双向机器翻译系统的研究[D];上海交通大学;2012年
5 祖丽皮亚·买买提明;维吾尔语基本动词短语自动识别研究[D];北京邮电大学;2012年
6 吴小川;泛化的基于实例方法的汉语维吾尔语模板库的构建[D];新疆大学;2012年
7 邓俊;基于Android平台的维吾尔文网页浏览器的设计与实现[D];新疆大学;2013年
8 阿米妮古丽·奥斯曼;维汉/汉维机器翻译译后编辑器的设计与实现[D];新疆大学;2013年
9 申屠文胜;新疆南疆三地州农业信息服务模式研究[D];石河子大学;2013年
10 古丽孜亚·阿布都吉力;汉—哈萨克双语电子词典的设计与实现[D];厦门大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 张广达;碎叶城今地考[J];北京大学学报(哲学社会科学版);1979年05期
2 塞麦提·麦麦提敏;塞麦提·麦麦提敏;塞麦提·麦麦提敏;;基于统计的维吾尔文信息熵的估计[J];电脑知识与技术;2009年04期
3 袁保社,王新平,吐尔根;24W系列维汉英电子打字机的研制[J];电子技术应用;1989年08期
4 王昆仑;基于CDCPM的维吾尔语非特定人语音识别[J];计算机研究与发展;2001年10期
5 达吾勒·阿布都哈依尔;古丽拉·阿东别克;;基于ANN的哈萨克文手写文字识别系统的研究[J];计算机工程与应用;2008年01期
6 达吾勒·阿布都哈依尔;古丽拉·阿东别克;;哈萨克语词法分析器的研究与实现[J];计算机工程与应用;2008年19期
7 刘艳;古丽拉.阿东别克;伊力亚尔;;哈萨克语词性自动标注研究初探[J];计算机工程与应用;2008年20期
8 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
9 缪成,袁保社,吾守尔·斯拉木,李莉;维、哈、柯、汉、英多文种处理平台的设计与实现[J];计算机工程;2004年10期
10 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎检索器的关键技术[J];计算机工程;2008年21期
中国重要会议论文全文数据库 前2条
1 玉素甫.艾白都拉;阿不都热依木沙力;热孜万;;现代维语语料库加工处理中的机器词根词典研究[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 伊力亚尔.加尔木哈买提;古丽拉.阿东别克;;中国哈萨克阿拉伯文与哈萨克斯拉夫文文本转换[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前1条
1 毕丽克孜;现代维吾尔语语料库词频统计实验性研究[D];新疆大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
2 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
3 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
4 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
5 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
6 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
7 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
8 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
9 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
10 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 戴洪玲;[N];中国电脑教育报;2004年
2 山东 黄家贞;[N];电脑报;2001年
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
京ICP证040441号
互联网出版许可证 新出网证(京)字008号
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-9993 010-62982499
服务热线:010-62985026 010-62791813
在线咨询:
传真:010-62780361
京公网安备11010802020475号
本文关键词:哈萨克语文本分类系统的设计与实现,由笔耕文化传播整理发布。
本文编号:103720
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/103720.html