一种基于结构分析的网页主题区域发现方法
本文关键词:一种基于结构分析的网页主题区域发现方法
【摘要】:随着互联网的发展,Web数据挖掘在帮助人们获取主题信息方面越来越具有重要意义。本研究基于树结构,将Web网页解析为标签树;在树匹配算法的基础上,提出了数据区域挖掘和语义链接块识别算法,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果发现主题区域,去噪后获得主题信息。实验表明该研究结果对新闻、博客类网页具有很好的识别效果。
【作者单位】: 武汉大学计算机学院;
【分类号】:TP393.092;TP391.1
【正文快照】: 1引言种基于文本结构权重识别主题的方法,通过对标签树分网页主题区域是指通常位于浏览者视觉中心的内析来处理半结构化的网页,利用树匹配方法发现数据区容,大多数情况下,人们只对网页主题感兴趣。目前出域,采用文本结构权重方法识别主题区域,从而获取目现了许多网页主题提取
【参考文献】
中国期刊全文数据库 前4条
1 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期
2 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
3 王少康;董科军;阎保平;;使用特征文本密度的网页正文提取[J];计算机工程与应用;2010年20期
4 黄武冠;朱明;尹文科;;基于DOM树和视觉特征的网页信息自动抽取[J];计算机工程;2013年10期
【共引文献】
中国期刊全文数据库 前10条
1 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
2 杜茂康;李韶华;刘苗;;基于MEDL模型的HTML向XML的转换方法[J];重庆邮电大学学报(自然科学版);2012年06期
3 李征宇;孙平;高春阳;;基于XML和本体的城市住宅信息集成研究[J];电脑知识与技术;2013年35期
4 邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期
5 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
6 王宇;谭松波;廖祥文;曾依灵;;基于扩展领域模型的有名属性抽取[J];计算机研究与发展;2010年09期
7 田建伟;李石君;;基于层次树模型的Deep Web数据提取方法[J];计算机研究与发展;2011年01期
8 张瑞;李石君;;网上表格数据到XML的自动转换[J];计算机工程与应用;2007年02期
9 贾长云;程永上;;HTML表格向XML的智能转换[J];计算机工程;2009年14期
10 张志远;徐涛;冯霞;;航班信息抽取规则的自动生成技术[J];计算机工程;2011年06期
中国博士学位论文全文数据库 前6条
1 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
2 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
3 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
4 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
5 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
6 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
3 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期
4 孟军;刘秋水;王秀坤;;节点频度和语义距离相结合的网页正文信息抽取[J];计算机工程与应用;2009年01期
5 姜波;丁岳伟;;基于约束树编辑距离与导航树的信息采集[J];计算机工程;2009年14期
6 杨舟;卓林;赵朋朋;崔志明;;一种针对商品数据记录的自动抽取方法[J];计算机工程;2010年23期
7 郑国良;叶飞跃;林国俊;耿冬;;基于领域本体的主题信息采集方法[J];计算机应用;2008年12期
8 李中原;杨守文;;基于向量空间模型的网页特征权重计算改进[J];计算机与现代化;2010年06期
9 乔少杰;唐常杰;陈瑜;彭京;温粉莲;;基于树编辑距离的层次聚类算法[J];计算机科学与探索;2007年03期
10 聂卉;黄贵鹏;;树编辑距离在Web信息抽取中的应用与实现[J];现代图书情报技术;2010年05期
【相似文献】
中国期刊全文数据库 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 刘艳敏;刘飚;封化民;宋国森;方勇;;Web页面主题信息抽取研究与实现[J];计算机工程与应用;2006年21期
10 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
中国重要会议论文全文数据库 前7条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈浩;自定义主题信息抽取的研究与应用[D];大连理工大学;2008年
2 薛耀兵;科技文献中的主题发现与趋势预测[D];哈尔滨工业大学;2013年
3 郭程;面向多样性检索的子主题挖掘技术的研究[D];沈阳航空航天大学;2014年
4 吴彦文;主题信息合理性、语境意义偏向性对汉语句子歧义消解的实验研究[D];陕西师范大学;2002年
5 戴兴虎;基于主题的学术网络构建[D];浙江大学;2013年
6 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
7 邸亮;基于主题模型的个性化信息推荐[D];北京工业大学;2014年
8 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
9 徐枫;基于主题爬虫的视频教程库的研究与设计[D];广西大学;2014年
10 徐西孟;基于OODA决策循环的主题发现技术的研究与设计[D];济南大学;2011年
,本文编号:1307006
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1307006.html