当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文文本自动分类研究与应用

发布时间:2018-03-16 02:06

  本文选题:向量空间模型 切入点:特征选择 出处:《湖北大学》2012年硕士论文 论文类型:学位论文


【摘要】:随着计算机网络的高速发展以及信息、资讯的大量增加与积累,无论是个人电脑上还是internet上,以文本形式存储的信息数量巨大。而如何对这些文本数据进行高效的管理、存储、访问以及提取出所需要的信息,成为当前现代社会的人们提高工作和生活质量和效率的重要问题,也是当前计算机科技、人工智能知识工程和信息处理研究的热点与难点的所在。而处理这个问题的基本工具——文本自动分类,也于近几年得到了前所未有的重视与发展。 截至目前,国内外对于文本自动分类的研究已经非常多,并且在信息提取、搜索引擎等具体热点领域有着丰富深入的研究。不管是工业界还是科研院所,都已经取得了很多举世瞩目的成就,同时开发出了很多实用的工具与软件系统。 本文主要研究中文文本自动分类的关键技术并设计实现原型系统。首先介绍文本自动分类技术研究现状与理论基础,然后对中文文本分类技术进行了详细的讨论,并分析了向量空间模型和中文自动分词的技术优势与特点。然后详细研究了文本分类的关键技术,包括项的权重、特征选择和关键算法。在这些基础之上,设计了一种中文文本分类自动分类系统,并对其中的关键技术进行了详细介绍。最后是对系统进行相关实验以及效率效果评估分析。
[Abstract]:With the rapid development of computer network and information, the amount of information stored in the form of text is huge, whether on personal computer or internet, and how to manage and store these text data efficiently. Accessing and extracting the information needed has become an important issue for people in modern society to improve the quality and efficiency of their work and life, and it is also the current computer technology. The research of artificial intelligence knowledge engineering and information processing is hot and difficult, and the basic tool to deal with this problem, text automatic classification, has been paid more attention and development than ever before in recent years. Up to now, there has been a lot of research on automatic text classification at home and abroad, and there are rich and in-depth research in the specific hot areas, such as information extraction, search engine and so on. Has made a lot of achievements, and developed a lot of practical tools and software systems. This paper mainly studies the key technologies of automatic Chinese text classification and designs and implements a prototype system. Firstly, the research status and theoretical basis of automatic text classification are introduced, and then the technology of Chinese text classification is discussed in detail. The advantages and characteristics of vector space model and Chinese automatic word segmentation are analyzed. Then the key technologies of text classification are studied in detail, including the weight of items, feature selection and key algorithms. An automatic classification system for Chinese text classification is designed, and the key technologies are introduced in detail. Finally, the relevant experiments and the efficiency evaluation analysis of the system are carried out.
【学位授予单位】:湖北大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期

2 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期

3 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期

4 杨清,杨岳湘,瞿国平;智能文本分类系统的研究与设计[J];计算机应用研究;1999年10期

5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

6 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期

7 杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期

8 张东礼,汪东升,郑纬民;基于VSM的中文文本分类系统的设计与实现[J];清华大学学报(自然科学版);2003年09期

9 陈莉,焦李成;文档挖掘与降维技术[J];西北大学学报(自然科学版);2003年03期

10 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期

相关硕士学位论文 前7条

1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年

2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年

3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年

4 陈平;基于SVM的中文文本分类相关算法的研究与实现[D];西北大学;2008年

5 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年

6 闫晨;KNN文本分类研究[D];燕山大学;2010年

7 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年



本文编号:1617831

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1617831.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户35e68***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com