当前位置:主页 > 管理论文 > 移动网络论文 >

基于半监督结构学习的网页分割

发布时间:2018-04-24 18:45

  本文选题:网页分割 + 半监督学习 ; 参考:《南京大学》2017年硕士论文


【摘要】:网页分割旨在按照人眼视觉感知网页布局结构的方式,将网页划分为不同类型的信息区、功能块。现有的分割算法或采用启发式规则判断或构建机器学习模型识别网页区块,启发式规则多着眼于网页的局部特征,并未对网页的整体结构进行全面的分析,而基于监督学习的网页分割算法依赖于有标记样本的数量和质量,在样本较少的场景下难以取得较好的泛化性能。针对这些缺点,本文提出了一种基于半监督结构学习的网页分割方法,通过构建网页对应的分割图,将网页分割任务转化为分割图上的标记指派问题,利用0-1整数线性规划在分割图上求解最优标记分配策略,并通过协同结构支持向量机模型学习得到网页联合特征表示的权重向量,进而更好地解决网页分割问题。本文的工作主要包括三个方面:1)综述分析现有的网页分割方法的优势与不足,针对多数算法着眼于局部未对网页整体结构进行分析的情况,本文构建网页对应的分割图结构,图中的顶点为网页的虚拟分割边,顶点之间的有向连接反映了分割边的依赖关系,基于分割图,将网页分割任务转化为分割图上的标记指派问题,建立结构学习模型求解最优解。2)针对结构学习问题涉及的联合特征表示、标签推理、参数学习三个方面,本文抽取了分割图节点的局部特征、上下文特征两类特征群,构建分割图与对应标记的联合特征表示;将分割图上的标签推理转化为0-1整数线性规划问题,通过求解其对应的线性规划松弛问题得到原问题的最优解;提出协同结构支持向量机算法,通过训练多个分歧的结构支持向量机模型,利用多学习器集成的优势,共同决策得出最优分割方案。3)在搜集的网页分割数据集上,评估基于协同支持向量机的网页分割方法与传统的结构支持向量机模型分割得到的网页分割块的准确度,同时与现有的网页分割算法做比较,实验表明:基于协同结构支持向量机的网页分割方法能很好地利用未标注的网页样本,提升网页分割算法性能,同时,该方法也优于其他对比的网页分割方法。
[Abstract]:The purpose of web page segmentation is to divide web pages into different types of information regions and function blocks according to the way of human visual perception of web page layout structure. The existing segmentation algorithms use heuristic rules to judge or build machine learning models to identify web pages. Heuristic rules focus on the local features of web pages, and the overall structure of web pages is not comprehensively analyzed. However, the supervised learning algorithm depends on the quantity and quality of labeled samples, so it is difficult to achieve better generalization performance in the scenario with fewer samples. Aiming at these shortcomings, this paper proposes a semi-supervised structure learning method for web page segmentation. By constructing the corresponding segmentation graph, the task of web page segmentation is transformed into a label assignment problem on the segmentation graph. 0-1 integer linear programming is used to solve the optimal label allocation strategy on the partition graph, and the weight vector of the joint feature representation of the web page is obtained by using the cooperative structure support vector machine model, and the problem of web page segmentation is solved better. The work of this paper mainly includes three aspects: 1) summarizing and analyzing the advantages and disadvantages of the existing methods of web page segmentation. In view of the fact that most algorithms focus on the local failure to analyze the whole structure of the web page, this paper constructs the corresponding segmentation graph structure of the web page. The vertices in a graph are virtual segmentation edges of a web page, and the directed connection between vertices reflects the dependency of the segmentation edges. Based on the segmentation graph, the task of web page segmentation is transformed into a label assignment problem on the segmentation graph. In order to solve the problem of structural learning, two kinds of feature groups, namely joint feature representation, label reasoning and parameter learning, are extracted in this paper. The joint feature representation of the segmentation graph and the corresponding label is constructed, the label reasoning on the partition graph is transformed into 0-1 integer linear programming problem, and the optimal solution of the original problem is obtained by solving the corresponding linear programming relaxation problem. A collaborative structure support vector machine (CSCVM) algorithm is proposed. By training several different structural support vector machine (SVM) models and making use of the advantages of multi-Learner integration, the optimal segmentation scheme. 3) is obtained on the collected web page segmentation data set. The accuracy of the web page segmentation method based on cooperative support vector machine (CSVM) and the traditional structural support vector machine (SVM) model is evaluated. At the same time, it is compared with the existing web page segmentation algorithms. The experimental results show that the method of web page segmentation based on cooperative structure support vector machine can make good use of unlabeled web page samples and improve the performance of page segmentation algorithm. At the same time, this method is better than other compared methods.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 贾海洋;陈娟;刘大有;;贝叶斯网结构学习搜索空间分析[J];计算机工程与科学;2010年09期

2 王双成;林士敏;陆玉昌;;贝叶斯网络结构学习分析[J];计算机科学;2000年10期

3 高晓光;肖秦琨;;非平稳随机系统动态贝叶斯结构学习关系网[J];航空学报;2007年06期

4 冀俊忠;张鸿勋;胡仁兵;刘椿年;;基于禁忌搜索的贝叶斯网结构学习算法[J];北京工业大学学报;2011年08期

5 周本达;田旭;;基于遗传算法和强化学习的贝叶斯网络结构学习算法[J];微型机与应用;2007年S1期

6 张少中,王秀坤;基于约束最大信息熵的贝叶斯网络结构学习算法[J];小型微型计算机系统;2005年06期

7 马壮,杨善林,胡小建;贝叶斯网结构学习的研究现状及发展趋势[J];合肥工业大学学报(自然科学版);2005年08期

8 程泽凯;秦锋;徐浩;;TANC-BIC结构学习算法的改进[J];计算机技术与发展;2006年05期

9 肖秦琨;高晓光;高嵩;王海芸;;DBN结构学习度量分解性能分析[J];系统工程与电子技术;2009年04期

10 郭文强;高晓光;任佳;;分段平稳变结构DBN模型区域内的结构学习[J];系统工程与电子技术;2012年04期

相关会议论文 前3条

1 邓志东;张秀苇;;具有结构学习的神经模糊推理模型及其在fRNA基因预测中的应用[A];2005年中国智能自动化会议论文集[C];2005年

2 刘向南;王浩;姚宏亮;;一种基于x~2测试的贪婪搜索结构学习算法[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

3 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

相关博士学位论文 前4条

1 曹杰;贝叶斯网络结构学习与应用研究[D];中国科学技术大学;2017年

2 张韬政;结构学习中的辅助问题研究[D];北京邮电大学;2011年

3 雷菊阳;复杂环境下动态系统结构学习[D];上海交通大学;2009年

4 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年

相关硕士学位论文 前10条

1 赵梦梦;同调结构学习算法及其应用研究[D];苏州大学;2015年

2 许晴;基于Finsler几何的结构学习算法研究[D];苏州大学;2015年

3 刘培娜;基于非负编码和SPNs结构学习的图像分类算法研究[D];哈尔滨工业大学;2015年

4 张顺;不完全数据图模型的结构学习[D];山东师范大学;2016年

5 李国梁;贝叶斯网络结构学习的混合优化方法研究[D];西北工业大学;2015年

6 李硕豪;基于图分块的贝叶斯网络结构学习研究[D];国防科学技术大学;2014年

7 冯瀚洋;基于半监督结构学习的网页分割[D];南京大学;2017年

8 曾杰鹏;基于继承的贝叶斯网络结构学习算法研究与应用[D];华南理工大学;2012年

9 胡仁兵;动态贝叶斯网络结构学习的研究[D];北京工业大学;2009年

10 张鸿勋;基于K2评分的贝叶斯网结构学习算法的研究[D];北京工业大学;2009年



本文编号:1797787

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1797787.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0ffd7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com