当前位置:主页 > 管理论文 > 移动网络论文 >

基于标签路径的Web结构化数据自动抽取

发布时间:2018-06-08 01:30

  本文选题:标签路径 + 结构化数据抽取 ; 参考:《计算机科学》2013年S1期


【摘要】:提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。
[Abstract]:In this paper, a method of automatic Web structured data extraction based on label path is proposed. In this method, the complete tag path set is obtained by parsing the Dom tree of the web page, and the label path is clustered according to the method of path similarity measurement, and the location of the target data region is realized. Then the label node coordinate position is used to separate the data items, filter the redundant data, and finally complete the data extraction. The experimental results show that compared with MDR method, this method has higher recall and precision when dealing with web pages with structured data.
【作者单位】: 沈阳建筑大学信息与控制工程系;
【基金】:国家自然科学基金(61070024)资助
【分类号】:TP393.02

【参考文献】

相关期刊论文 前2条

1 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

2 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期

【共引文献】

相关期刊论文 前10条

1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期

2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

4 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期

5 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期

6 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期

7 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期

8 章林柯;崔立林;;潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J];船舶力学;2011年08期

9 孙英娟;杨柳;何昆鸟;;属性离散化算法研究[J];长春师范学院学报(人文社会科学版);2009年12期

10 陈庆枝;陈国龙;郭文忠;陈仕涛;;信息安全评估日志数据的一种混合聚类算法[J];重庆工学院学报(自然科学版);2009年10期

相关会议论文 前10条

1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年

2 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年

3 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

4 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年

5 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年

6 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年

7 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年

8 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年

9 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年

10 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年

相关博士学位论文 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年

3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年

4 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年

5 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年

6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年

7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年

8 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年

9 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年

10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前10条

1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

2 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年

3 李振;网络舆情预测关键技术研究[D];郑州大学;2010年

4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

5 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年

6 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年

7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年

8 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年

9 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年

10 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年

【二级参考文献】

相关期刊论文 前1条

1 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期

【相似文献】

相关期刊论文 前10条

1 张亚东;梁高翔;;使用聚类方法分析IP报文特征[J];光盘技术;2006年03期

2 张西广;郑秋生;王虎祥;陈国强;;基于聚类的网络异常检测[J];微电子学与计算机;2008年05期

3 王洁松;张小飞;;KDDCup99网络入侵检测数据的分析和预处理[J];科技信息(科学教研);2008年15期

4 尹珧人;王德广;;一种改进的k-means聚类算法在入侵检测中的应用[J];科学技术与工程;2008年16期

5 邹汉斌;周学清;;基于聚类的模糊支持向量机入侵检测算法[J];情报杂志;2009年03期

6 涂浩;李之棠;柳斌;;一种基于特征提取的高效蠕虫自动防御系统[J];小型微型计算机系统;2009年06期

7 章静;徐道炜;;传感器网络中基于簇的入侵检测策略[J];科学技术与工程;2009年17期

8 钟锐;;一种基于聚类与关联规则算法的DDoS攻击检测模型[J];赣南师范学院学报;2009年06期

9 党小超;郝占军;王筱娟;;基于簇连接度聚类算法的入侵检测[J];计算机工程与应用;2010年21期

10 吴卉男;;基于聚类算法的入侵检测模型设计[J];考试周刊;2010年38期

相关会议论文 前10条

1 刘建伟;于守健;乐嘉锦;;基于分裂-凝聚的Web新闻主题聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

2 高学东;周磊;;Web点击流数据聚类算法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年

3 李剑;李俊;;改进的K-means聚类算法在入侵检测系统中的应用研究[A];2011年全国通信安全学术会议论文集[C];2011年

4 牟廉明;;基于均匀度和相对密度的网格聚类算法[A];第二届中国智能计算大会论文集[C];2008年

5 曹明;李剑;杨义先;;一种基于模糊连接聚类的入侵防御算法[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年

6 务孟庆;高军;王腾蛟;杨冬青;;WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

7 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年

8 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

9 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

10 李涵;;一种改进的聚类方法在异常检测中的应用[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

相关博士学位论文 前8条

1 李志华;语义属性数据聚类/分类算法及其在异常检测中的应用研究[D];江南大学;2009年

2 窦伊男;根据多维特征的网络用户分类研究[D];北京邮电大学;2010年

3 刘雪飞;数据挖掘技术在入侵检测中的应用研究[D];南京理工大学;2005年

4 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年

5 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年

6 李东胜;基于兴趣与保护隐私的在线社区推荐技术研究[D];复旦大学;2012年

7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年

8 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年

相关硕士学位论文 前10条

1 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年

2 王忠强;基于K-medoids聚类算法Web信息集成方法的研究与实现[D];沈阳建筑大学;2011年

3 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年

4 崔月婷;基于分类算法与聚类算法流量识别系统的研究[D];北京邮电大学;2010年

5 阳建平;聚类算法在入侵检测中的应用[D];电子科技大学;2009年

6 郑仁毅;基于数据挖掘技术的入侵检测系统研究与设计[D];厦门大学;2007年

7 田野;基于复杂网络聚类算法的互联网内容分发策略研究[D];吉林大学;2010年

8 赖立;聚类算法在IDS特征分析中的应用[D];电子科技大学;2007年

9 张甜;免疫原理和移动代理技术在网络故障诊断中的应用研究[D];电子科技大学;2008年

10 赵玉;聚类算法在中俄经贸合作网的应用[D];对外经济贸易大学;2007年



本文编号:1993758

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1993758.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e4d5a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com