暗网数据源分类算法的研究和实现
发布时间:2019-11-07 10:48
【摘要】:Web按照信息隐藏深度分为暗网(Deep Web)和浅层网(Visible Web)。传统搜索引擎(如BaiDu,Google等)仅能索引到浅层网的页面上信息;暗网即指在线填写表单并提交至后台服务器才能获得的页面。据BrightPlant的调查得知暗网所蕴含的信息量是浅层网几百倍,同时信息的质量,领域专业主题性都优于浅层网。基于这些特点,暗网数据适合进行相关的信息采集和利用。但是,实际利用中,由于暗网信息分布广泛,规模大及其相关业务变化迅速等特性,因此,有效数据集成分类、挖掘知识并加以利用还需要有大量的研究工作,,其中,海量暗网数据准确的分类是这些研究工作中重要研究内容。 本文主要关注暗网数据源的分类,目前有对暗网数据进行集成利用的网站都是采用手工方式进行分类,由于手工方式成本高,更新慢并且涵盖的类别有限,所以如何摆脱手工分类的弊端,对各个数据源自动别类,规划所属的类别,从而将暗网资源有效的进行整合一直是现在研究者的热门研究课题。目前对暗网数据源分类相关的研究都是基于表单文本特征,并假设文本特征之间没有关联。这与实际情况不符,并且相关的分类算法没有考虑训练样本的分布情况,对一种分类算法在训练样本丰富时能取得较好的分类效果,但是对训练样本稀疏情况下并不一定能取得很好的分类效果,针对以上的不足,本文提出如下的改进方法。 本文首先研究了Web和搜索引擎相关内容,为暗网数据源分类提供了理论基础和本论文研究价值的参考。对现有的暗网数据源分类算法加以研究,提出了暗网数据源分类算法应该针对不同的训练样本分布情况提出不同的分类策略,即考虑暗网数据源样本丰富和稀疏两种情况,解决了分类模型的适用性问题。 通过统计观察得知,不同领域类别的数据源所包含的控件类型总体分布存在很大差异,而同一类别的数据源在结构上有极大的相似性,本文提出在暗网数据源特征提取阶段同时提取数据源文本信息和数据源结构信息的特征提取方法,以充分利用数据源结构信息与领域类别之间的联系。 在数据源接口丰富的情况下,本文引入数据挖掘思想,挖掘特征之间的频繁模式,挖掘特征之间的联系,克服了现有分类算法基于特征之间无关联的假设,提出了改进的贝叶斯分类模型,并且在TEL-8数据集上对提出的分类算法加以验证,通过与采用传统贝叶斯模型在相同实验数据下得出的实验结果在Recall,Precison和F-measure指标上进行对比,证明本文提出的算法的有效性。 在数据源接口稀疏的情况下,本文引入语义词典,客服了由于训练集稀疏造成的数据源接口特征不足的弊端,提出了基于概念的特征空间模型,最后提出了改进的基于语义的KNN分类模型,并且在相同的实验条件下验证本文所提出的分类算法的有效性和准确性。
【图文】:
机分类方法可以很好的避免局部最优问题,能很好的得到数据的内在特征,对稀疏数据不敏感,所以其分类效果的准确性较好,并且其根本思想是去解决一个二次规划问题,得到基于全局的最优解,支持向量机分类方法是文本分类方法中效果最好的分类方法之一。决策树(Dicision Tree)分类方法是基于一个特殊的树结构的决策图,利用类似于树形图形或决策模型来进行目标规划。决策树被广泛的应用到了运筹学领域,以帮助决策者获得一个最可能达到的策略。决策树的结构反映了对象与对象属性之间的映射关系,树中的每个节点代表了一个对象,不同的分路代表了不同的属性值范围。在决策树的表示中,通常采用三种不同的符号来表示不同类型的节点。如图 2-5 利用矩形框来表示决策节点,圆圈来表示机会节点,三角形表示终结点。
图 2-5 决策树节点类型 的决策流程如下:根据已经存在的条件绘制决策树图,将标注在概率枝上面,在对应的状态节点上标注期望值,比将期望值小的方案减掉即剩下最优的决策方案。其优点是够在相对较短的时间内对大数据源做出可行而较优的方案别数据分布不均匀,决策树中的信息增益结果偏向那些拥而是得分类结果出现错误偏差。络(Artificial Neural Network, ANN)分类方法是计算机的很好例子,其根据生物神经网络的结构和功能来建立神经元和神经元之间的关系构成了神经网络,大量的人的计算工作,不同的节点代表了不同的输出函数,即激励自适应系统。图 2-6 描述了神经网络的基本结构。
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
本文编号:2557243
【图文】:
机分类方法可以很好的避免局部最优问题,能很好的得到数据的内在特征,对稀疏数据不敏感,所以其分类效果的准确性较好,并且其根本思想是去解决一个二次规划问题,得到基于全局的最优解,支持向量机分类方法是文本分类方法中效果最好的分类方法之一。决策树(Dicision Tree)分类方法是基于一个特殊的树结构的决策图,利用类似于树形图形或决策模型来进行目标规划。决策树被广泛的应用到了运筹学领域,以帮助决策者获得一个最可能达到的策略。决策树的结构反映了对象与对象属性之间的映射关系,树中的每个节点代表了一个对象,不同的分路代表了不同的属性值范围。在决策树的表示中,通常采用三种不同的符号来表示不同类型的节点。如图 2-5 利用矩形框来表示决策节点,圆圈来表示机会节点,三角形表示终结点。
图 2-5 决策树节点类型 的决策流程如下:根据已经存在的条件绘制决策树图,将标注在概率枝上面,在对应的状态节点上标注期望值,比将期望值小的方案减掉即剩下最优的决策方案。其优点是够在相对较短的时间内对大数据源做出可行而较优的方案别数据分布不均匀,决策树中的信息增益结果偏向那些拥而是得分类结果出现错误偏差。络(Artificial Neural Network, ANN)分类方法是计算机的很好例子,其根据生物神经网络的结构和功能来建立神经元和神经元之间的关系构成了神经网络,大量的人的计算工作,不同的节点代表了不同的输出函数,即激励自适应系统。图 2-6 描述了神经网络的基本结构。
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前8条
1 徐群叁;周凤翔;宋丽华;;基于粗糙集理论的关联规则挖掘[J];福建电脑;2006年08期
2 贾君枝;董刚;;FrameNet、WordNet、VerbNet比较研究[J];情报科学;2007年11期
3 高凡;网络信息检索的发展方向[J];情报理论与实践;2004年02期
4 颜跃进,李舟军,陈火旺;基于FP-Tree有效挖掘最大频繁项集[J];软件学报;2005年02期
5 马军;宋玲;韩晓晖;闫泼;;基于网页上下文的Deep Web数据库分类[J];软件学报;2008年02期
6 朱红蕾,李明;关联规则挖掘的维护算法研究[J];微机发展;2004年02期
7 饶洋辉;叶良;程洁;;WordNet在文本聚类中的应用研究[J];现代图书情报技术;2009年10期
8 宋中山;挖掘大型数据库中的Apriori算法及其改进[J];中南民族大学学报(自然科学版);2003年01期
相关博士学位论文 前1条
1 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
相关硕士学位论文 前2条
1 杨溥;搜索引擎中爬虫的若干问题研究[D];北京邮电大学;2009年
2 华慧;基于频繁模式和语义处理的Deep Web数据源分类研究[D];苏州大学;2010年
本文编号:2557243
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2557243.html