海洋文献分类中极小化标注问题的研究
发布时间:2021-11-20 17:32
高效率的进行海洋文献的分类对海洋科学研究具有重要意义。目前,解决此问题较为成熟的技术是有监督的文本分类技术。但其往往存在人工标注量太大的缺点;此外,有标注资源代价昂贵,而大量无标注资源没有加以利用。半监督机器学习方法能根据少量有标注资源从大量无标注资源中获取有用信息,有效降低人工标注量。因此,本文运用半监督机器学习方法进行海洋文献分类中的极小化标注问题的研究。本文从描述文本分类和机器学习的基本概念入手,对基于机器学习的文本分类基础技术——文本的表示、分类方法和效果评估三部分内容逐一进行了讨论和介绍,并根据已有实验结果选择了最佳的分类方法;接着通过对半监督机器学习问题的描述,引出了本文所采用的核心算法——协同训练(co-training)算法;最后,使用c#.net语言编程实现了基于co-training算法的海洋文献分类极小化标注,这是本文研究的核心问题。本文的主要工作和创新点有:(1)本文给出了基于协同训练算法的海洋文献分类的详细流程,详细设计了六大功能模块,包括文本预处理、特征分割、训练、预测、挑选特征和评估模块。其中,特征分割模块是co-training方法区别于传统的有监督分类...
【文章来源】:中国海洋大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
文本分类系统的工作流程
如果将某一直线两侧的样本点分为正类和负类,则推断点x所对应的类别 y 的决策函数如下:y = f ( x ) = sgn( w x + b), (其中 sgn 为符号函数,有1, 0sgn( )1, 0aaa = ≥= = < (函数的定义,很明显 y 的取值要么是 1,要么是-1,也就是说 1 和-1 两类。此时的分类问题是:对于任意给定的一个新的输据训练集推断它所对应的输出 y 是 1 还是-1。这是线性可分的分的工作就是要求出w和 b,从而确定出最优分类线,使其不但错误地分开,而且要使两类样本点之间的间隔距离最大。
(1)这两条直线 H1、H2 也能够将两类样本点完全分开,H1 和 H2 之间没有任何样本点存在;(2)H1 与 H2 之间的距离是所有平行于 H 且满足条件(1)的两条直线中最大的。当分类线 H 能够使得满足上述条件(1)(2)的两条直线 H1、H2 之间的距离最大化的时候,H 就是该二元分类问题的最优分类线。此时,那些正好在直线H1 和 H2 上的样本点,就叫做“支持向量”。若将情况推广到高维空间,最优分类线就成为最优分类面。如图 2-3 所示
【参考文献】:
期刊论文
[1]网络环境下海洋院校图书馆海洋科学知识服务体系模式研究[J]. 邵艳. 浙江海洋学院学报(人文科学版). 2007(03)
[2]机器学习的发展现状及其相关研究[J]. 苏淑玲. 肇庆学院学报. 2007(02)
[3]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[4]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
[5]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发. 计算机研究与发展. 2005(01)
[6]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄. 中文信息学报. 2004(01)
[7]基于VSM的中文文本分类系统的设计与实现[J]. 张东礼,汪东升,郑纬民. 清华大学学报(自然科学版). 2003(09)
[8]关于文本特征抽取新方法的研究[J]. 李凡,鲁明羽,陆玉昌. 清华大学学报(自然科学版). 2001(07)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]海洋文献元数据的语义标注技术研究[D]. 王浩然.中国海洋大学 2008
[2]基于贝叶斯的网页文本分类算法[D]. 张汇.华中科技大学 2004
本文编号:3507808
【文章来源】:中国海洋大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
文本分类系统的工作流程
如果将某一直线两侧的样本点分为正类和负类,则推断点x所对应的类别 y 的决策函数如下:y = f ( x ) = sgn( w x + b), (其中 sgn 为符号函数,有1, 0sgn( )1, 0aaa = ≥= = < (函数的定义,很明显 y 的取值要么是 1,要么是-1,也就是说 1 和-1 两类。此时的分类问题是:对于任意给定的一个新的输据训练集推断它所对应的输出 y 是 1 还是-1。这是线性可分的分的工作就是要求出w和 b,从而确定出最优分类线,使其不但错误地分开,而且要使两类样本点之间的间隔距离最大。
(1)这两条直线 H1、H2 也能够将两类样本点完全分开,H1 和 H2 之间没有任何样本点存在;(2)H1 与 H2 之间的距离是所有平行于 H 且满足条件(1)的两条直线中最大的。当分类线 H 能够使得满足上述条件(1)(2)的两条直线 H1、H2 之间的距离最大化的时候,H 就是该二元分类问题的最优分类线。此时,那些正好在直线H1 和 H2 上的样本点,就叫做“支持向量”。若将情况推广到高维空间,最优分类线就成为最优分类面。如图 2-3 所示
【参考文献】:
期刊论文
[1]网络环境下海洋院校图书馆海洋科学知识服务体系模式研究[J]. 邵艳. 浙江海洋学院学报(人文科学版). 2007(03)
[2]机器学习的发展现状及其相关研究[J]. 苏淑玲. 肇庆学院学报. 2007(02)
[3]文本分类综述[J]. 靳小波. 自动化博览. 2006(S1)
[4]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
[5]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发. 计算机研究与发展. 2005(01)
[6]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄. 中文信息学报. 2004(01)
[7]基于VSM的中文文本分类系统的设计与实现[J]. 张东礼,汪东升,郑纬民. 清华大学学报(自然科学版). 2003(09)
[8]关于文本特征抽取新方法的研究[J]. 李凡,鲁明羽,陆玉昌. 清华大学学报(自然科学版). 2001(07)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]海洋文献元数据的语义标注技术研究[D]. 王浩然.中国海洋大学 2008
[2]基于贝叶斯的网页文本分类算法[D]. 张汇.华中科技大学 2004
本文编号:3507808
本文链接:https://www.wllwen.com/tushudanganlunwen/3507808.html