基于进化模糊规则的Web新闻内容分类技术研究
发布时间:2021-08-02 12:33
在如今的大数据时代,网络每分每秒都会产生大量的行业数据,数据量之大几乎超出了现有的处理及分析工具的能力。另外,随着现代技术和生活水平的发展,人们对事物的认识也在不断演变。其中,Web新闻是人们每天都要接触的,他作为一种非常具代表性的数据,Web新闻内容以其多种多样的内容,实时发生且不断更新的性质,一直以来都是人们获取知识,了解时事的必要渠道。面对爆炸式出现的新闻内容时,如何快速直接的找到个人想要了解的新闻内容,并且能适应人们不断进步的认知,这是一个热门的研究课题。那么如何适应Web新闻类属繁杂且不断更新和演变的现状和趋势,对大量的新闻数据实现进化模糊机制的分类,就有着非常重要的研究价值。本课题围绕在进化模糊规则下对Web新闻内容分类的目标,从Web新闻内容的提取,并基于进化模糊规则对新闻内容进行分类研究,研究内容如下:1.基于进化模糊规则的新闻内容分类模型框架的建立。通过对各种已有的方法进行理解和实验评估,明白了现有框架如何建立的前提下,本文构建了基于进化模糊规则的Web新闻内容分类模型框架。确立了该框架的两个重要核心部分:Web新闻内容的识别提取和基于进化模糊规则的新闻内容分类。将文...
【文章来源】:河南科技大学河南省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
新闻图片示例
其中在执行正向传播的子过程的时候,计算节点的权值还有传播到该位置的节点的阈值,通过相关的非线性变换计算后生成的输出值作,使它用于该输出的节点,当输出的值与期望的值差值非常大的时候,网络就会执行第二个过程,就是误差的反向传播的子过程。执行这一过程时,将让各层所有的单元都通过反向传导获得该输出的误差,然后改变每一层之间的链接强度以及各个之间的连接阈值最后用梯度下降误差,就是这样反复进行很多次训练后,一定会得到一个最小误差,这时候的各层对应的权值和阈值就是我们通过训练想得到的,最后就停止训练就可以了。这个通过我们这样训练的网络模型就可以处理具有相似的输入信息的数据,并自动找到我们需要的最小误差时的各种讯息。而在本课题中将会使用一个双层 BP 神经网络,它的试验方法和原理也是一样的,通过将输入特征数字化,即转化为特征值进行归一化后通过输入层输入神经网络,即可通过要输出的输出值和网络的训练来得到映射的规则。本篇文章所构建的双层 BP 神经网络模型如图 2-1 所示。
在本研究方法中,首先将定位过的候选文本区域进行二值化处理,然图像进行竖直方向上的灰度投影,并将投影后得到的一维数组进行快换(FFT),然后通过频谱特性来分析文字成行排列的周期特性。然的重要特征作为输入构建 BP 神经网络分类器。最后,通过实验获得分出非文本区域和文本区域。实验结果表明,该方法不仅适用于 W和视频中的文字定位,对自然场景中的定位效果也有提高。实验还和本滤除方法也做了比较,滤除效果也好于它们。2 图片中文字定位的特点分析Web 新闻图像的文本中包含着许多重要的信息,最主要的是它可能主题相关和概括性的信息。由于尺寸,各种字体,线条方向,不同的图像中的弱字符和复杂的背景等因素的影响[40-42],给文字定位的准一定的困难[43]。例如,Gatos B[44]定位方法对图像中的文字进行定位了候选文本区域,定位效果如图 3-2 所示。
【参考文献】:
期刊论文
[1]PCA和改进BP神经网络的大米外观品质识别[J]. 仲伟峰,马丽霞,何小溪. 哈尔滨理工大学学报. 2015(04)
[2]基于ELM的机器人自适应跟踪控制[J]. 李军,乃永强. 电机与控制学报. 2015(04)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[4]基于PSO改进的BP神经网络数据手套手势识别[J]. 李东洁,李君祥,张越,曾禛. 电机与控制学报. 2014(08)
[5]大数据应用的现状与展望[J]. 张引,陈敏,廖小飞. 计算机研究与发展. 2013(S2)
[6]基于新闻要素的在线新事件检测[J]. 李营那,阮彤,顾春华. 计算机应用与软件. 2013(12)
[7]大数据管理:概念、技术与挑战[J]. 孟小峰,慈祥. 计算机研究与发展. 2013(01)
[8]一种改进的KNN文本分类[J]. 钟将,刘荣辉. 计算机工程与应用. 2012(02)
[9]基于统计的自动化Web新闻正文抽取[J]. 林子熠,沈备军. 计算机应用与软件. 2010(12)
[10]一种Web评论自动抽取方法[J]. 刘伟,严华梁,肖建国,曾建勋. 软件学报. 2010(12)
硕士论文
[1]基于支持向量机和深度学习的分类算法研究[D]. 刘树春.华东师范大学 2015
本文编号:3317572
【文章来源】:河南科技大学河南省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
新闻图片示例
其中在执行正向传播的子过程的时候,计算节点的权值还有传播到该位置的节点的阈值,通过相关的非线性变换计算后生成的输出值作,使它用于该输出的节点,当输出的值与期望的值差值非常大的时候,网络就会执行第二个过程,就是误差的反向传播的子过程。执行这一过程时,将让各层所有的单元都通过反向传导获得该输出的误差,然后改变每一层之间的链接强度以及各个之间的连接阈值最后用梯度下降误差,就是这样反复进行很多次训练后,一定会得到一个最小误差,这时候的各层对应的权值和阈值就是我们通过训练想得到的,最后就停止训练就可以了。这个通过我们这样训练的网络模型就可以处理具有相似的输入信息的数据,并自动找到我们需要的最小误差时的各种讯息。而在本课题中将会使用一个双层 BP 神经网络,它的试验方法和原理也是一样的,通过将输入特征数字化,即转化为特征值进行归一化后通过输入层输入神经网络,即可通过要输出的输出值和网络的训练来得到映射的规则。本篇文章所构建的双层 BP 神经网络模型如图 2-1 所示。
在本研究方法中,首先将定位过的候选文本区域进行二值化处理,然图像进行竖直方向上的灰度投影,并将投影后得到的一维数组进行快换(FFT),然后通过频谱特性来分析文字成行排列的周期特性。然的重要特征作为输入构建 BP 神经网络分类器。最后,通过实验获得分出非文本区域和文本区域。实验结果表明,该方法不仅适用于 W和视频中的文字定位,对自然场景中的定位效果也有提高。实验还和本滤除方法也做了比较,滤除效果也好于它们。2 图片中文字定位的特点分析Web 新闻图像的文本中包含着许多重要的信息,最主要的是它可能主题相关和概括性的信息。由于尺寸,各种字体,线条方向,不同的图像中的弱字符和复杂的背景等因素的影响[40-42],给文字定位的准一定的困难[43]。例如,Gatos B[44]定位方法对图像中的文字进行定位了候选文本区域,定位效果如图 3-2 所示。
【参考文献】:
期刊论文
[1]PCA和改进BP神经网络的大米外观品质识别[J]. 仲伟峰,马丽霞,何小溪. 哈尔滨理工大学学报. 2015(04)
[2]基于ELM的机器人自适应跟踪控制[J]. 李军,乃永强. 电机与控制学报. 2015(04)
[3]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[4]基于PSO改进的BP神经网络数据手套手势识别[J]. 李东洁,李君祥,张越,曾禛. 电机与控制学报. 2014(08)
[5]大数据应用的现状与展望[J]. 张引,陈敏,廖小飞. 计算机研究与发展. 2013(S2)
[6]基于新闻要素的在线新事件检测[J]. 李营那,阮彤,顾春华. 计算机应用与软件. 2013(12)
[7]大数据管理:概念、技术与挑战[J]. 孟小峰,慈祥. 计算机研究与发展. 2013(01)
[8]一种改进的KNN文本分类[J]. 钟将,刘荣辉. 计算机工程与应用. 2012(02)
[9]基于统计的自动化Web新闻正文抽取[J]. 林子熠,沈备军. 计算机应用与软件. 2010(12)
[10]一种Web评论自动抽取方法[J]. 刘伟,严华梁,肖建国,曾建勋. 软件学报. 2010(12)
硕士论文
[1]基于支持向量机和深度学习的分类算法研究[D]. 刘树春.华东师范大学 2015
本文编号:3317572
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3317572.html
最近更新
教材专著