当前位置:主页 > 科技论文 > 农业技术论文 >

基于语义扩散核与支持向量机的半监督农业文本分类研究

发布时间:2020-04-30 00:05
【摘要】:随着信息技术应用水平的不断提高、互联网相关产业的迅猛发展和国家对农业的大力支持,信息技术在农业农村中的应用也在不断发展、不断推广和不断深入。如何利用机器学习自动从海量的农业文本数据信息中迅速、准确地提取有价值的知识成为人们研究的重要课题。自动文本分类是数据挖掘领域研究的热点,是机器学习中处理文本信息的关键技术。本文在传统的文本分类模型基础上,提出了一种基于特征族群语义扩散核与支持向量机的半监督农业中文文本分类方法,实验表明本文所提出的方法比经典的支持向量机方法具有更高的分类准确率。为更好进行实验工作,设计了一个基于语义扩散核与支持向量机的半监督中文文本分类JAVA EE软件实验平台,详细介绍了该平台的原理、功能、优势。具体地,本文的主要工作有:(1)提出了一种基于特征族群语义扩散核与支持向量机的半监督农业中文文本分类方法,该方法主要涉及如下几个步骤:(1)数据获取及数据预处理。利用系统中爬虫程序从中国农业新闻网、中国水产网和农林网上获得相关栏目下的文档作为农业信息数据集,然后利用基于中科院的ICTCLAS中文分词算法的Ansj中文分词系统对数据集进行分词处理。(2)特征选择。利用停用词表剔除停用词,计算每个词的词频、反向词频、TF-IDF和卡方值。实验表明,随着特征项数量的增加,分类准确率会随之提升,最终逼近一个极限值。本文选择卡方统计量最高的1000个词作为特征。(3)信息向量化。这里使用向量空间模型(Vector space model,VSM)实现文本信息向量化。(4)农业文本信息分类。基于生成的向量文件,分别使用本文所提出的分类方法与经典的基于支持向量机的农业文本分类方法实现农业信息分类,并对实验结果进行了分析。(2)设计了一种可适用于小型网站的基于语义扩散核与支持向量机的半监督中文文本分类JAVA EE软件实验平台,系统基于Java EE技术和关系型数据库技术,为基于支持向量机的中文文本分类提供开放、灵活、高效、稳健的实验平台。
【图文】:

支持向量机,示例,线性,向量表示


图 1 线性可划分的支持向量机示例性可划分的支持向量机的例子。如图所示,蓝。 从图中我们可作无数条分类线将两种类待测试样本的向量表示,w、b 是模型参数,,

分离超平面,示例,分类超平面,中距离


图 2 间隔最大分离超平面示例如图 2, H 是分类超平面,H1 和 H2 是距离H2 与 H 之间的距离就是几何间隔。在 H1、样本点中距离最小的那一点的间隔设定为
【学位授予单位】:赣南师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:S126;TP391.1;TP181

【参考文献】

相关期刊论文 前10条

1 周志华;;基于分歧的半监督学习[J];自动化学报;2013年11期

2 易云;汪廷华;;基于特征加权支持向量机的血吸虫尾蚴识别算法设计与应用[J];赣南师范学院学报;2012年03期

3 陶剑文;王士同;;领域适应核支持向量机[J];自动化学报;2012年05期

4 王欣欣;赖惠成;;改进的SMO文本分类算法[J];信息安全与通信保密;2011年12期

5 徐丽;伏玉琛;李斯;;一种改进的SVM决策树Web文本分类算法[J];苏州大学学报(工科版);2011年05期

6 刘振鹿;王大玲;冯时;张一飞;方东昊;;一种基于LDA的潜在语义区划分及Web文档聚类算法[J];中文信息学报;2011年01期

7 邱荣洲;赵健;池美香;黄霈霆;高晓丹;邱燕莲;伊俏;翁启勇;;数字农业信息分类体系研究[J];农业网络信息;2010年11期

8 王燕霞;邓伟;;CTM与SVM相结合的文本分类方法[J];计算机工程;2010年22期

9 魏顺平;何克抗;;基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J];开放教育研究;2008年05期

10 盖杰,王怡,武港山;潜在语义分析理论及其应用[J];计算机应用研究;2004年03期

相关博士学位论文 前1条

1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年

相关硕士学位论文 前10条

1 张晓静;基于深度学习的农业信息分类方法研究[D];西北农林科技大学;2017年

2 刘国锋;基于深度学习理论和SVM技术的文本分类研究与实现[D];江苏科技大学;2017年

3 赵新苗;基于中心向量的聚类算法在农业信息分类中的研究与应用[D];新疆农业大学;2016年

4 谭建平;基于半监督的SVM迁移学习文本分类方法[D];广东工业大学;2016年

5 张磊磊;基于Hadoop和SVM算法的中文文本分类的研究与实现[D];昆明理工大学;2015年

6 许钰;基于半监督SVM主动学习的文本分类算法研究[D];兰州交通大学;2013年

7 谢静;基于LDA与SVM的文本分类研究[D];河北大学;2012年

8 田旷;面向高维数据的特征选择算法研究[D];北京交通大学;2012年

9 樊东辉;基于文本聚类的特征选择算法研究[D];西北师范大学;2012年

10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年



本文编号:2645149

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/nykj/2645149.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5777a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com