当前位置:主页 > 管理论文 > 移动网络论文 >

基于子树相似度计算的网页评论提取算法研究

发布时间:2019-02-22 18:24
【摘要】:将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中BODY节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面的性能不足,本算法同时考虑树节点的标签与位置信息构建叶节点路径,通过求解两个DOM子树的叶节点路径相似度矩阵得到两个子树的相似度。比较其他几种基于DOM相似度计算方法和一种基于标签权重的网页评论提取方法在性能和效率上的差异。实验表明,基于本算法的网页评论提取方法具有较高的查准率和查全率,总体优于现有网页评论提取方法。
[Abstract]:The recognition and automatic extraction of web comments are transformed into subtree circular volume recognition in the DOM tree structure. A method based on the similarity calculation of web page DOM subtree is proposed. A comment block node tree is identified by traversing down the BODY node layer by layer from the web page. In view of the lack of performance of DOM tree similarity calculation algorithm in the aspect of comment extraction, this algorithm considers the label and location information of tree node to construct the leaf node path at the same time. The similarity of two subtrees is obtained by solving the path similarity matrix of two DOM subtrees. The differences in performance and efficiency between other methods based on DOM similarity calculation and one method based on tag weight for Web comment extraction are compared. Experiments show that the method based on this algorithm has a high precision and recall rate, and is better than the existing methods.
【作者单位】: 南京农业大学信息科学技术学院;
【基金】:教育部人文社会科学研究青年基金项目“基于信息生态学的网络舆情管理机制与平台研究”(项目编号:10YJC870053) 江苏高校哲学社会科学研究重点项目“涉农网络舆情的政府监管研究”(项目编号:2011ZDIXM027)的研究成果之一
【分类号】:TP393.092

【参考文献】

相关期刊论文 前5条

1 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

2 刘伟;严华梁;肖建国;曾建勋;;一种Web评论自动抽取方法[J];软件学报;2010年12期

3 李姜;;基于DOM的评论发现及抽取模型研究[J];计算机工程与设计;2007年09期

4 安增文;徐杰锋;;基于视觉特征的网页正文提取方法研究[J];微型机与应用;2010年03期

5 聂卉;黄贵鹏;;树编辑距离在Web信息抽取中的应用与实现[J];现代图书情报技术;2010年05期

【共引文献】

相关期刊论文 前10条

1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

3 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期

4 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期

5 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期

6 马瑞民;钱浩;;基于时间频率加权DOM的Web信息抽取方法[J];长江大学学报(自然科学版);2011年01期

7 张磊;陈俊亮;孟祥武;沈筱彦;郭杰;;基于用户偏好的垂直搜索算法[J];电子科技大学学报;2010年01期

8 唐纬晟;苗放;刘斌;;XML实现文化数字数据无平台交换[J];电脑知识与技术(学术交流);2007年09期

9 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期

10 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期

相关会议论文 前6条

1 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年

2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年

3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年

4 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年

5 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年

6 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关博士学位论文 前10条

1 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年

2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年

3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

4 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

6 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年

7 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年

8 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年

9 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

10 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年

相关硕士学位论文 前10条

1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年

4 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年

5 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年

6 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年

7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

8 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年

9 孙亚南;网站实时时序数据采集系统的设计与实现[D];西安电子科技大学;2010年

10 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年

【二级参考文献】

相关期刊论文 前9条

1 姜波;丁岳伟;;基于约束树编辑距离与导航树的信息采集[J];计算机工程;2009年14期

2 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

3 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

4 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期

5 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

6 孟宪福,狄慧;基于Agent和XML的Web页面信息抽取研究与设计[J];计算机工程与设计;2004年08期

7 孙桂煌;刘发升;;基于正文特征的网页正文信息提取方法[J];现代计算机(专业版);2008年09期

8 李亚子;方安;陈薇;朱峰;;Web页面最大有意义节点发现算法研究[J];现代图书情报技术;2009年10期

9 刘守群;朱明;谭晓彬;;一种基于树匹配的网页语义块挖掘算法[J];小型微型计算机系统;2009年08期

相关硕士学位论文 前1条

1 徐东兴;基于Gate框架的信息抽取系统的研究与实现[D];华东师范大学;2007年

【相似文献】

相关期刊论文 前10条

1 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期

2 ;网上先生——教您上网(四) 上网第四站[J];市场与电脑;1999年07期

3 ;站点扫描[J];计算机周刊;1999年17期

4 李新 ,杨章远 ,许志宏;在网页中实现自定义滚动条[J];电脑编程技巧与维护;1999年10期

5 范建平;;给你的网页安一个门铃[J];软件;2000年06期

6 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期

7 张兴华,赵英豪,臧爱军;接触网页制作[J];石家庄师范专科学校学报;2001年04期

8 王黎;制作网页的方法[J];沈阳大学学报;2001年02期

9 陈万平,马秀峰,徐新农;网页制作技术探讨[J];聊城师院学报(自然科学版);2001年01期

10 王麟;巧用伊妹儿省钱[J];网络与信息;2001年08期

相关会议论文 前10条

1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

2 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年

4 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年

5 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年

7 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年

8 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

9 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

10 唐雅茜;朱海波;黎玲;;破解恶意网页十大招[A];2008年广西气象学会学术年会论文集[C];2008年

相关重要报纸文章 前10条

1 任悦采写 本报记者 方妍;照片买家说,,网页繁复不招喜欢[N];中国摄影报;2009年

2 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年

3 鸣涧;网页的编辑[N];中国电脑教育报;2002年

4 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年

5 ;给网页加盖“公章”[N];电脑报;2002年

6 山东 姜元学;网页文字无法复制的破解[N];电脑报;2002年

7 武功;捕捉网页中的“蝴蝶”[N];电脑报;2005年

8 河南 刘德君;强行改变网页文字大小的方法[N];电子报;2003年

9 本报记者 刘永刚;网页病毒如何防范看不见的“敌人”[N];中国消费者报;2004年

10 湖南 Ringfo;做自己的“极速登录”网页[N];电脑报;2002年

相关博士学位论文 前10条

1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年

3 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年

4 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年

5 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年

6 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年

7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

8 李东方;Web 2.0环境下互联网信息过滤理论与方法研究[D];中国科学技术大学;2009年

9 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年

10 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年

相关硕士学位论文 前10条

1 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年

2 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年

3 杨硕;社交网页游戏现象研究[D];山东艺术学院;2012年

4 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年

5 蒋文;一种网页过滤系统设计与实现[D];北京邮电大学;2013年

6 牛庆鹏;博客朋友推荐技术的研究[D];东北大学;2009年

7 牛庆鹏;博客潜在朋友推荐技术的研究[D];东北大学;2009年

8 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年

9 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年

10 杨剑;基于用户访问路径的网页推荐算法研究[D];东北大学;2010年



本文编号:2428487

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2428487.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8a56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com