基于加权引文的贝叶斯分类研究
本文关键词:基于加权引文的贝叶斯分类研究 出处:《南京大学》2016年硕士论文 论文类型:学位论文
【摘要】:文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(1abel)集合下,根据文本内容判定它的类别1。通过文本自动分类,系统能够对信息进行有效的管理,提供便捷的信息服务。朴素贝叶斯能够快速高效的完成分类任务,且能够很好的进行增量变化,这使得其在基于自动分类的服务系统中受到广泛应用。在学术文献中,存在着大量的引用文献,通过其形成的引用网络能够获得许多原文献中缺少的信息,利用引用网络和引文可以有效的改善分类效果。将引文网络以及引文域与贝叶斯算法相结合,可以构建高效的分类器为学术研究提供信息服务。本文主要工作如下:1、本文系统地介绍了文本自动分类的一般流程。之后详细分析了贝叶斯的基础理论模型,总结分析得出朴素贝叶斯对于属性特征的敏感性,即其受到噪声的影响较大。因此特征选择对于朴素贝叶斯分类十分重要。在其基础上对不同改进模型的研究现状与性能优缺点进行了系统综述。贝叶斯主要改进模型通常称为半朴素贝叶斯分类,该类模型能够更好地满足朴素贝叶斯的词项独立性假设,却会在一定程度上提高时间复杂度,在使用中需要根据不同需求选择不同模型。其主要分为z-依赖分类器、有效特征子集、加权贝叶斯三种改进方式。之后本文对包括引用网络在内的各种网状数据分类方法进行了较为全面的解读。2、本文参考网状结构数据分类的理论与应用成果提出利用引用关系、引文域词项特征及不同域加权对分类方法进行改进。此外,本文利用学术文献引用中存在的部分引文多次被施引文献引用的现象,利用引用频次对引用关系和引文域词项进行加权,以帮助更好的分类。基于该思路,本文设计了4个实验,得到了如下结论:(1)引文信息可以提升学术文献分类的效果。单独使用引用信息(引用关系、引文域词项)的分类效果在准确率和召回率指标上低于传统分类器;基于引文域词项的分类器与正文分类器相结合可以有效提高分类效果。(2)对题名(title)、摘要(abstract)、正文(body)、引文(reference)题录词项赋予4:2:1:2的权重在众多加权方案中可以获得最优的分类效果。(3)引文特征在训练集选取较少的情况下对引文与正文分别建模的分类器准确率提升的效果更为突出。在多项式、贝叶斯网络以及多元伯努利模型等三个分类器中,后者结合引文域词项特征的表现最好。(4)不同分类模型的分类效果存在差异。在召回率指标上,基于文本域加权的WNB分类器表现最优;在准确率指标上,引文域与正文词项相结合的(CTNB)分类器准确率提升更为明显;综合准确率和召回率指标,CTNB的分类效果更值得期待。(5)引文特征对内聚性不同类簇的影响。引用关系特征在准确率指标上对内聚性强的类簇有积极影响,而对召回率指标的影响则相反;反之,引用关系特征在准确率指标上对耦合性强的类簇有积极影响,而对召回率指标的影响则相反;引文域词项分类器整体优于引用关系分类器。
[Abstract]:Text categorization technology is an important foundation for information retrieval and text mining. Its main task is to determine its category 1 according to the text content under the set of predefined category labels (1abel). Through automatic text classification, the system can manage information effectively and provide convenient information service. Naive Bayes can accomplish classification tasks quickly and efficiently, and can make incremental changes very well, which makes it widely applied in automatic classification service system. In the academic literature, there are a lot of references. The citation network can get many information that is missing from the original articles. Using citation network and citation can effectively improve the classification effect. Combining the citation network and the citation domain with Bayesian algorithm, an efficient classifier can be constructed to provide information services for academic research. The main work of this paper is as follows: 1. This paper systematically introduces the general process of automatic text classification. After that, Bias's basic theory model is analyzed in detail, and the sensitivity of naive Bias to attribute characteristics is concluded and analyzed, that is, it is greatly influenced by noise. Therefore, the selection of characteristics is very important for the simple Bias classification. On the basis of it, the research status and performance advantages and disadvantages of different improved models are systematically reviewed. Bias's main improvement model is usually called semi naive Bias classification. This model can better satisfy the hypothesis of Bias's word independence, but it will improve the time complexity to some extent, and needs to choose different models according to different needs. It is mainly divided into three kinds of improved methods: z- dependency classifier, effective feature subset and weighted Bayes. After that, this paper makes a more comprehensive interpretation of the network data classification methods including the reference network. 2, referring to the theory and application of netlike structure data classification, this paper proposes the improvement of classification method based on Citation relation, citation domain term feature and different domain weighting. In addition, in this paper, the citation phenomenon is quoted by some quotations in academic literature, and the citation frequency and citation domain terms are weighted by citation frequency to help better classification. Based on this idea, this paper designs 4 experiments and obtains the following conclusions: (1) the citation information can improve the effect of the classification of academic documents. The classification effect of using citation information alone (Citation relation and citation domain term) is lower than that of traditional classifier in accuracy rate and recall rate. The combination of classifier based on Citation domain term and text classifier can effectively improve classification effect. (2) the title (title), (Abstract), the body (body), citation (Reference) classification results of lexical entry for the 4:2:1:2 weight index can obtain the optimal weighting scheme in many. (3) in the case of less selection of the training set, the effect of the classifier to improve the accuracy of the classifier, which is modeled separately by the text and the text, is more prominent. Among the three classifiers, such as polynomials, Bayesian networks and multiple Bernoulli models, the latter combines the features of the citation domain words best. (4) the classification effects of different classification models are different. In the recall rate index, the WNB classifier based on Text Domain weighting is the best. In the accuracy rate, the accuracy of CTNB classifier is more obvious, and the classification accuracy of CTNB is more worthy of expectation. (5) the influence of the characteristics of the citations on the different clusters of cohesiveness. The reference relationship characteristics in accuracy indicators have a positive impact on the strong cohesion of the cluster, and the impact on the recall rate index is the opposite; on the other hand, the reference relationship characteristics in accuracy indicators have a positive impact on the strong coupling of the cluster, and the impact on the recall rate index is on the contrary; citation domain lexical entry the classifier outperforms the reference classifier.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G353.1
【相似文献】
相关期刊论文 前10条
1 ;《医学引文分析研究进展》简介[J];临床眼科杂志;2000年01期
2 李萍;引文分析的作用及局限[J];平原大学学报;2000年01期
3 李玉进;引文分析存在问题的再认识[J];天津外国语学院学报;2001年03期
4 栗莉;;90年代我国引文分析的研究与发展[J];图书情报论坛;2001年02期
5 符早雯,侯金川,李韶红;试析伪引文[J];图书馆;2002年06期
6 吉俊虎;赵旭峰;;试论引文分析的作用[J];当代图书馆;2002年03期
7 唐宏伟;从学报引文分析谈情报教育——《青海大学学报》1995~2001年引文分析调查[J];现代情报;2003年10期
8 许志强;科学引文分析[J];西昌师范高等专科学校学报;2004年02期
9 宋丽萍;关于网络引文分析研究的几个问题[J];图书情报知识;2004年06期
10 谢亮;《现代图书情报技术》2002~2004年载文的网络引文分析[J];情报探索;2005年06期
相关会议论文 前10条
1 刘盛博;丁X;;基于引用内容的引文评价分析[A];第九届中国科技政策与管理学术年会论文集[C];2013年
2 雷瑜良;黄颖;;《重庆大学学报》(自然科学版)引文统计与分析[A];编辑工作论丛[C];1997年
3 缪建兰;;《中国科学》引文分析研究——以A辑与B辑为例[A];全国核心期刊与期刊国际化、网络化研讨会文集[C];2003年
4 王维焱;钱苏鸣;叶方寅;;《国外医学——分子生物学分册》的引文分析[A];全国核心期刊与期刊国际化、网络化研讨会文集[C];2003年
5 袁永旭;吕仁猛;;《山西医科大学学报》2008年载文与引文分析[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年
6 冷怀明;张蔚;谢怿;;《第三军医大学学报》1989~1991年引文分析[A];科技期刊编辑研究文集[C];1993年
7 周文松;陈秀英;;化工类学报论文的引文分析[A];学报编辑论丛(第五集)[C];1994年
8 赵贤瑶;;对引文定义及其相关术语的新阐释[A];学术期刊编辑学理论与实践[C];2010年
9 徐昌娟;潘和平;李文先;叶冬青;;《疾病控制杂志》2006-2007年载文、作者及引文分析[A];预防医学学科发展蓝皮书·2008卷[C];2008年
10 李晓红;陈冀青;冯保初;;由引文分析看国内外数学期刊的差异[A];学报编辑论丛(第九集)[C];2000年
相关重要报纸文章 前2条
1 上海大学图书情报档案系 刘宇;引文首先是一种修辞工具[N];中国社会科学报;2014年
2 本报记者 宋晓梦;“引文桂冠奖”科学家缘何能成诺奖得主[N];光明日报;2010年
相关博士学位论文 前5条
1 梁永霞;引文分析学的知识计量研究[D];大连理工大学;2009年
2 李运景;可视化引文分析在科技史中的应用研究[D];南京农业大学;2007年
3 李粤;引文网络的可调优先粘贴模型及其应用[D];清华大学;2007年
4 尹丽春;科学学引文网络的结构研究[D];大连理工大学;2006年
5 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
相关硕士学位论文 前10条
1 陈雪;基于路径的引文分析模型研究[D];西南大学;2007年
2 任潇雨;基于引文的英文文档文摘自动生成方法研究[D];西安电子科技大学;2014年
3 张美平;科学引文网络分析及其应用研究[D];电子科技大学;2015年
4 王雪燕;基于引文分析的期刊保障率研究[D];重庆大学;2015年
5 田盛慧;机构层面的多层次引文分析及其离散性测度[D];华东师范大学;2016年
6 柏晗;基于加权引文的贝叶斯分类研究[D];南京大学;2016年
7 马晓佳;网络引文分析与传统引文分析的比较[D];南京大学;2011年
8 庞龙;科学引文分析的科学评价功能和意义[D];山西大学;2006年
9 邓李君;基于引文分析的开放获取期刊研究[D];西南大学;2009年
10 钟镇;错引现象折射出的科学家群体引文失范行为[D];河南师范大学;2007年
,本文编号:1341436
本文链接:https://www.wllwen.com/tushudanganlunwen/1341436.html