页面图文模型与元素特征归纳
本文选题:页面信息抽取 + 页面元素 ; 参考:《计算机工程与科学》2013年04期
【摘要】:针对以图文内容为核心的页面信息抽取,以形式化的方式提出了对页面进行元素分析的理论模型。通过定义基础元素集与变换规则,页面图文模型简化了页面DOM树结构,并展现出页面内元素的图文特征。在此基础上,通过定义元素分类相似度,从页面图文模型的元素特征中进行优选,归纳最佳分类特征,提出并实现了获取最佳分类特征集与识别阈值的算法。实验结果表明,页面图文模型简化了页面元素的规模,特征集归纳算法能够在较小的学习成本下获得理想的分类精度。
[Abstract]:Aiming at the page information extraction with the content of graph and text as the core, a theoretical model for the element analysis of the page is put forward in a formalized way. By defining the basic element set and transformation rules, the page text model simplifies the structure of the page DOM tree and presents the features of the elements in the page. On this basis, by defining the similarity of element classification, selecting the best classification feature from the element feature of the page graph and text model, the algorithm of obtaining the best classification feature set and the recognition threshold is proposed and implemented. The experimental results show that the page graph and text model simplifies the size of page elements, and the feature set inductive algorithm can achieve ideal classification accuracy at a lower learning cost.
【作者单位】: 解放军理工大学;
【基金】:国家863计划资助项目(2010AA012404)
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 丁振凡;ASP动态网页中页面元素间的数据关联处理技术[J];计算机时代;2000年10期
2 魏婧;WEB元素的对象表达[J];安徽大学学报(自然科学版);2002年04期
3 顾宏立;Navigator 4.0与IE 4.0中动态HTML的异同[J];电子与电脑;1997年12期
4 张竞波;;浅谈网页设计中的布局工具[J];电脑知识与技术;2009年24期
5 阳富民,周艳,周正勇;WML浏览器的设计与实现[J];计算机工程与科学;2004年09期
6 ;网页创作利器—Namo WebEditor 3[J];电脑知识与技术;2000年S3期
7 王志军;广告克星使用指南[J];电子与电脑;2000年11期
8 翁建元;Web缓存技术及产品[J];计算机周刊;2000年29期
9 刘永平;让你的网页个性十足[J];电脑爱好者;2001年13期
10 盛翼;网页表格的特殊应用[J];电脑知识与技术;2002年02期
相关会议论文 前1条
1 景东侠;吴林荣;白光弼;;基于CMS技术的陕西气象信息内网的设计与实现[A];信息技术在气象领域的开发应用论文集(二)[C];2006年
相关重要报纸文章 前4条
1 一苇;在Dreamweaver中进行网页优化[N];中国电脑教育报;2001年
2 Dream Zeus;网站制作轻松学(四)[N];计算机世界;2004年
3 飞飞;专业级的选择[N];中国电脑教育报;2002年
4 7star;用CSS控制网页总体风格[N];中国电脑教育报;2002年
相关硕士学位论文 前1条
1 李龙;动态性、安全型网站开发平台的研究与开发[D];浙江大学;2002年
,本文编号:1860526
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1860526.html