当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于DOM模型扩展的Web信息提取

发布时间:2019-08-02 08:25
【摘要】:提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。
[Abstract]:A Web information extraction method based on DOM model extension is proposed. The Web page is represented as DOM tree structure, the semantic extension of DOM tree node is carried out and its influence factor is calculated, and the pruning is carried out according to the influence factor of node, and then the information content of Web page is extracted. This method does not require a pre-understanding of the structure of web pages, and has the characteristics of automatic and universal. The extracted results can not only be directly used in Web browsing, but also can be used in Internet data mining, topic-based search engines and other applications.
【作者单位】: 南京信息工程大学计算机与软件学院;
【基金】:江苏省产业技术研究与开发基金项目(苏发改高技发[2006]1106号)资助
【分类号】:TP391.1

【参考文献】

相关期刊论文 前3条

1 冯艳为;王成良;;基于Web部件的个性化网站创建技术[J];重庆工学院学报(自然科学版);2008年02期

2 张志刚,陈静,李晓明;一种HTML网页净化方法[J];情报学报;2004年04期

3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

【共引文献】

相关期刊论文 前10条

1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期

2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

4 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期

5 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期

6 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期

7 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期

8 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期

9 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期

10 程基鹏;;一个网页过滤改进算法的应用与实现[J];电脑知识与技术;2009年33期

相关会议论文 前10条

1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年

2 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年

3 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年

4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年

6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

7 李国华;昝红英;;基于语句相似度的网页标题抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

8 李立宇;王腾蛟;唐世渭;杨冬青;刘世杰;;用语义包装器实现基于语义的信息集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

10 苏志华;杨冬青;唐世渭;王腾蛟;;基于结构分析和实体识别的信息集成[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

相关博士学位论文 前10条

1 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

3 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年

4 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

5 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

6 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年

7 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年

8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

9 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年

10 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

相关硕士学位论文 前10条

1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年

2 杜广飞;Web应用移动化适配服务中间件的研究与实现[D];郑州大学;2010年

3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年

5 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年

6 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年

7 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年

8 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年

9 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

10 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年

【二级参考文献】

相关期刊论文 前1条

1 张志刚,陈静,李晓明;一种HTML网页净化方法[J];情报学报;2004年04期

【相似文献】

相关期刊论文 前10条

1 原建伟;;基于内容分析的数据挖掘研究[J];河北工业科技;2011年05期

2 孙清 ,张德运 ,杨军;利用COM组件开发应用软件的方法及实现[J];微电子学与计算机;2001年06期

3 白勇;;基于文档对象模型和远程脚本技术的动态目录树设计[J];重庆电力高等专科学校学报;2003年01期

4 周宇;吴涛;;用C++语言实现XML文件解析的一种方案[J];光通信研究;2008年04期

5 侯锟;刘斌;;Web页面信息抽取技术的研究[J];荆楚理工学院学报;2009年11期

6 逯鹏;XML文档解析技术及其应用[J];郑州大学学报(工学版);2002年04期

7 李世斌,谢庆生;应用集成中BOM及其管理的研究[J];计算机与现代化;2003年07期

8 侯锟;罗海龙;;Web页面表格信息的自主抽取[J];科技广场;2006年04期

9 和万礼;陈应东;崔铁军;姚慧敏;;基于SVG的网络地图交互研究[J];海洋测绘;2006年05期

10 李伟;;基于XML+DOM4J的数据库集成技术研究[J];电脑知识与技术(学术交流);2007年05期

相关会议论文 前10条

1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年

2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

3 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年

4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年

5 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

6 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年

7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年

9 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

10 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年

相关重要报纸文章 前10条

1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年

2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年

3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年

4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

5 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年

6 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年

7 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

8 张立明;数据挖掘之道[N];网络世界;2003年

9 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年

10 裴维玲;呼叫中心与数据挖掘,谁先上?[N];网络世界;2001年

相关博士学位论文 前10条

1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年

2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年

3 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年

4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年

5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年

6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年

7 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年

8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年

9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年

10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年

相关硕士学位论文 前10条

1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年

2 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年

3 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年

4 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年

5 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年

6 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年

7 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年

8 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年

9 李森;基于数据挖掘的旅游电子商务系统研究与实现[D];电子科技大学;2011年

10 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年



本文编号:2521989

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2521989.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bd77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com