基于语义图结构的中文文本分类研究
发布时间:2018-04-23 21:43
本文选题:图结构 + 文本表示 ; 参考:《西安电子科技大学》2012年硕士论文
【摘要】:随着互联网技术的迅速发展和普及,人们日常需要处理的信息日益丰富。面对海量的信息资源,人们很难迅速有效地找到真正所需的信息资源。文本分类技术作为信息过滤、信息检索、搜索引擎、数字化图书馆等领域的技术基础,有着广泛的应用。 为了解决传统基于统计的文本表示方法中词语间语义信息缺失的问题,本文结合图论中的理论,提出了一种新的基于语义图结构的文本表示模型和中文文本分类方法。论文首先对语义图结构和基于语义图结构的文本之间的相似度计算方法进行了定义,通过将文本表示成语义图结构,有效地解决了文本表示过程中的语义信息流失问题;其次,给出了基于语义图结构的文本分类算法;最后,介绍了一种基于语义图结构的文本分类系统RCSGC。 实验表明,与传统的基于统计向量的SVM(支持向量机)等方法相比,,RCSGC方法更有利于文本的语义信息的表示。实验表明:该方法比传统的SVM方法有更好的性能。
[Abstract]:With the rapid development and popularization of Internet technology, people need to deal with more and more information. In the face of massive information resources, it is difficult to find the real information resources quickly and effectively. Text classification technology is widely used as the technical foundation of information filtering, information retrieval, search engine, digital library and so on. In order to solve the problem of the absence of semantic information between words in the traditional statistical text representation, a new text representation model based on semantic graph structure and a Chinese text classification method are proposed in this paper based on the theory of graph theory. Firstly, the similarity calculation method between the semantic graph structure and the text based on semantic graph structure is defined, and the loss of semantic information in the process of text representation is effectively solved by expressing the text into the semantic graph structure. A text classification algorithm based on semantic graph structure is presented. Finally, a text classification system RCSGC based on semantic graph structure is introduced. The experimental results show that compared with the traditional SVM (support vector machine) method, the RCSGC method is more convenient to represent the semantic information of the text. Experiments show that this method has better performance than the traditional SVM method.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【参考文献】
相关期刊论文 前9条
1 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
2 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
3 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
4 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
5 周昭涛,卜东波,程学旗;文本的图表示初探[J];中文信息学报;2005年02期
6 张东礼,汪东升,郑纬民;基于VSM的中文文本分类系统的设计与实现[J];清华大学学报(自然科学版);2003年09期
7 刁力力 ,胡可云 ,陆玉昌 ,石纯一;用Boosting方法组合增强Stumps进行文本分类(英文)[J];软件学报;2002年08期
8 杜飞龙;知网辟蹊径 共享新天地——董振东先生谈知网与知识共享[J];微电脑世界;1999年29期
9 邹加棋;陈国龙;郭文忠;;基于图模型的中文文档分类研究[J];小型微型计算机系统;2006年04期
相关硕士学位论文 前2条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 何元娇;基于本体的语义文本分类研究[D];北京化工大学;2008年
本文编号:1793742
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1793742.html