当前位置:主页 > 管理论文 > 移动网络论文 >

一种改进的树路径模型在网页聚类中的研究

发布时间:2018-04-09 22:26

  本文选题:信息提取 切入点:网页结构 出处:《计算机科学》2015年05期


【摘要】:相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。
[Abstract]:Similarity calculation is the foundation of text mining and the key step of information extraction.For the web pages with complex structure, the accuracy of the traditional tree path model is not perfect.The traditional tree path model does not consider the sequence of path appearance, and it is difficult to describe the similarity between paths more accurately when comparing path similarity with perfect matching.Therefore, an improved tree path model is proposed based on the similarity of web structure.This model fully considers the relationship between brother nodes, path position and path weight, and makes up for the defect that traditional tree path model can not express document structure and hierarchical information.The experimental results show that the model can improve the ability of recognizing the structural similarity of web pages, and can not only distinguish the pages with large structural differences, but also reflect the differences between pages from the same template.At the same time, it has better effect in web clustering.
【作者单位】: 河海大学计算机与信息学院;南京航空航天大学计算机科学与技术学院;
【基金】:江苏水利科技项目:“智慧河流”研究及其在六合滁河管理中的应用(2013025) 河海大学中央高校基本科研业务费项目(2009B21614)资助
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前1条

1 王志琪;王永成;;HTML文件的文本信息预处理技术[J];计算机工程;2006年05期

【共引文献】

相关期刊论文 前10条

1 程仁贵;;带反向词频的中英文词典的设计[J];重庆工学院学报(自然科学版);2008年11期

2 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期

3 孙娜;吴兰兰;;一种节点加权的相似重复XML数据检测算法[J];计算机光盘软件与应用;2014年02期

4 陈睿嘉;康志忠;张卫涛;;基于网络爬虫的导航深度服务信息自动采集[J];测绘工程;2015年01期

5 张瑞雪;宋明秋;公衍磊;;逆序解析DOM树及网页正文信息提取[J];计算机科学;2011年04期

6 方元康;胡学钢;夏启寿;朱勇;;改进的Web日志数据预处理技术[J];计算机工程;2009年10期

7 王舒;朱敏;张明;牛颢;赵瑜;;一种基于特征符号的网页主题信息抽取方法[J];计算机应用研究;2009年12期

8 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期

9 黄武冠;朱明;尹文科;;基于DOM树和视觉特征的网页信息自动抽取[J];计算机工程;2013年10期

10 王继奎;李少波;;数据源敏感的多源XML数据相似度量方法[J];华南理工大学学报(自然科学版);2014年07期

相关会议论文 前1条

1 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

相关博士学位论文 前5条

1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

2 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年

3 刘显敏;XML数据实体同一性相关技术的研究[D];哈尔滨工业大学;2013年

4 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年

5 高直;图像宏微观特征偏序结构一体化表示与相似性度量研究[D];燕山大学;2014年

相关硕士学位论文 前10条

1 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年

2 刘敏;嵌入式浏览器网页排版技术研究与实现[D];华中科技大学;2011年

3 朱慧;基于舆情分析研判的突发事件预警平台的设计与实现[D];电子科技大学;2011年

4 古沐松;基于SOA的铁路信息化研究[D];四川师范大学;2007年

5 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年

6 王磊;公安网络舆情分析系统的研究[D];北京交通大学;2008年

7 艾建生;基于Web环境的远程实验技术研究[D];重庆大学;2008年

8 杨新华;Windows CE系统下嵌入式WAP/Web浏览器的研究与实现[D];重庆大学;2009年

9 王立建;中文web文本过滤技术研究[D];中北大学;2010年

10 赵立磊;基于网页去重的垂直搜索引擎设计与实现[D];大连理工大学;2012年

【相似文献】

相关期刊论文 前10条

1 梁恩志;陆小龙;赵世平;刘晓宇;曹志华;王蕾;;二维桁架路径模型的自动生成算法[J];西安交通大学学报;2012年05期

2 牟德一;刘金凤;;改进的蚁群算法在飞行路径模型中的应用[J];计算机工程与科学;2012年06期

3 ;[J];;年期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前3条

1 崔啸;蔡安辉;董纪昌;;房价在不同时期货币政策传导机制中的作用——基于热最优路径模型研究[A];第十三届中国管理科学学术年会论文集[C];2011年

2 樊霞;俞舟;;产学研协同创新有助于大学创新能力成长吗?——基于偏最小二乘路径模型的实证检验[A];中国系统工程学会第十八届学术年会论文集——A03系统科学理论研究创新[C];2014年

3 黄德春;高敏;刘炳胜;;中国区域创新能力评价及变化趋势系统分析——基于PLS路径模型的实证研究[A];第六届(2011)中国管理学年会——技术与创新管理分会场论文集[C];2011年

相关硕士学位论文 前2条

1 石晶;集体行动双重路径模型的实验研究[D];华东师范大学;2012年

2 袁先亮;大规模网点物流路径规划系统的研究与应用[D];武汉理工大学;2014年



本文编号:1728454

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1728454.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d475a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com