XML的DOM树结构在WEB挖掘中的应用
本文关键词:XML的DOM树结构在WEB挖掘中的应用
【摘要】:面对飞速发展的信息时代,WEB数据的挖掘日益重要,而传统的搜索引擎难以胜任对数据的挖掘处理。基于XML良好的结构性和层次性,提出了利用DOM树进行WEB挖掘的方法。首先利用Tidy工具库将WEB数据转换成良好结构的XML文件,简化生成DOM树,然后通过遍历解析XML的DOM树结构,提取需要的WEB信息,实现对WEB数据挖掘。实验表明,该方法能够方便地对数据进行结构化存储和信息处理。
【作者单位】: 四川理工学院自动化与电子信息学院;四川理工学院网络管理中心;
【关键词】: WEB挖掘 XML Tidy DOM树
【基金】:四川理工学院研究生创新基金项目(y2012007)
【分类号】:TP311.13
【正文快照】: 引言随着WEB信息技术的飞速发展,WEB信息也以指数级日益增加,因此,如何从海量的数据中准确得到相关有效数据,成为了急需解决的问题。搜索引擎是从海量信息中获取指定数据的有效方式,但传统的基于HT-ML的搜索引擎仅仅能抓取和呈现孤立的数据本身,而难以对获取的数据进行有效的
【参考文献】
中国期刊全文数据库 前8条
1 秦鸿;基于Web的数据挖掘[J];电子科技大学学报;2002年S1期
2 黄磊,黄汉永;XML技术在Web挖掘中的应用[J];信息技术;2003年05期
3 李龙;李丽丽;高玲;;一种网络课程答疑系统分词器的设计[J];河北工程大学学报(自然科学版);2012年02期
4 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期
5 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
6 熊一利;徐鹏;;基于XML的网页数据挖掘[J];科技广场;2010年01期
7 李霞;蒋盛益;;基于DOM树及行文本统计去噪的网页文本抽取技术[J];山东大学学报(理学版);2012年03期
8 陈金森;原福永;张园园;;XML搜索引擎研究[J];图书情报工作;2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 牛彦成;包莹;;Web数据挖掘中XML的应用研究[J];电脑知识与技术;2011年01期
2 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期
3 丁瑾;基于Web数据挖掘的综述[J];科技情报开发与经济;2004年12期
4 汪剑;;基于Web的数据挖掘在信息服务领域的应用[J];软件导刊;2008年10期
5 张向锋;丁斗章;;基于免疫学习算法的Web数据挖掘方法[J];上海电机学院学报;2007年03期
6 丁瑾;;多媒体数据挖掘技术在数字档案中的应用[J];兰台世界;2006年22期
7 彭伟;;Web气象信息树型提取算法与LED显示设计[J];实验室研究与探索;2013年01期
8 丁瑾;蒋华;;数字档案馆中多媒体数据挖掘技术研究[J];浙江水利水电专科学校学报;2005年04期
9 金艳云;;Web数据挖掘综述[J];现代计算机(专业版);2012年33期
10 李爱飞;冀振燕;王经纬;;一种基于页面价值和跳转偏爱度挖掘频繁访问路径的模型[J];计算机系统应用;2013年03期
中国重要会议论文全文数据库 前1条
1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
中国博士学位论文全文数据库 前3条
1 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年
2 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
3 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 李伟利;面向普通教育的内容管理系统研究[D];北京林业大学;2011年
2 沈旭昌;隐私保护的分布式数据挖掘系统[D];浙江工业大学;2004年
3 廖江军;Web预取中的数据挖掘研究[D];上海师范大学;2005年
4 汤国行;Web日志聚类分析及应用[D];山东大学;2006年
5 王利;Web使用挖掘方法及其在个性化学习系统中的应用研究[D];苏州大学;2006年
6 单明辉;改进的关联规则算法在采购数据挖掘中的应用[D];上海交通大学;2008年
7 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
8 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年
9 祁鹏;基于移动搜索的Spider爬行策略的研究和实现[D];成都理工大学;2010年
10 郭晓初;基于VRML的虚拟哈尔滨机场建筑的设计与实现[D];吉林大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
3 袁新颜;;简析XML与HTML的结合[J];电脑知识与技术(学术交流);2007年07期
4 牛彦成;包莹;;Web数据挖掘中XML的应用研究[J];电脑知识与技术;2011年01期
5 姜良华;;网络辅助答疑系统的设计与实现[J];电脑知识与技术;2011年26期
6 胡青松;张申;;通用网络辅助教学支撑平台的研制[J];电气电子教学学报;2008年03期
7 吴劲,陈泽琳;基于部分匹配的XML文本文档向量检索模型[J];电子学报;2002年S1期
8 姜大仲;王新秀;崔善珠;;发展终身学习型城市网络的战略——以首尔市冠岳区案例为中心[J];高等函授学报(哲学社会科学版);2011年05期
9 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
10 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 蒋社想;;基于XML的WEB数据挖掘[J];长沙通信职业技术学院学报;2006年04期
2 熊一利;徐鹏;;基于XML的网页数据挖掘[J];科技广场;2010年01期
3 赵小礼;陆鑫;;基于XML的有效的Web挖掘系统设计研究[J];软件导刊;2005年18期
4 史哲;;基于XML的Web数据挖掘及应用模式研究[J];科技创新导报;2011年02期
5 蒋君毅;宋中山;;基于XML进行Web数据挖掘的应用研究[J];软件导刊;2006年15期
6 连瑞梅;;Web内容挖掘中XML技术的应用[J];科技经济市场;2007年07期
7 赵艳秋;封志宏;;基于XML的Web搜索推荐系统中用户兴趣模型的建立研究[J];网络安全技术与应用;2009年03期
8 曾瑛;李志杰;;Web挖掘工具与数字图书馆信息服务[J];高校图书馆工作;2006年04期
9 陈尧妃;倪应华;陈焕通;;基于XML的Web挖掘框架设计[J];仪器仪表学报;2006年S3期
10 李垒;李怀刚;;基于语义网络的Web挖掘[J];广西轻工业;2008年02期
中国重要会议论文全文数据库 前10条
1 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 北京邮电大学 张剑;XML的显示——XSL样式单(上)[N];计算机世界;2001年
2 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
4 湖北 张海;编程日日帖[N];电脑报;2005年
5 孤独笑 乌咪;打造你的音乐万年历(上)[N];电脑报;2003年
6 北京邮电大学 张剑;XML技术入门[N];计算机世界;2001年
7 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
8 ;Web收获:吸纳有用信息[N];计算机世界;2004年
9 广东 麦国恒;浅谈应用程序XP风格的实现[N];电脑报;2003年
10 杭州商学院 徐建平;使用ASP访问XML文件[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
5 张晨静;XML关键字过滤技术[D];复旦大学;2011年
6 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年
7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
8 朱晓冬;数字博物馆关键技术研究[D];西北大学;2004年
9 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
10 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 马宏伟;基于XML的Web文本挖掘应用研究[D];合肥工业大学;2009年
2 史西兵;基于XML的Web信息抽取技术研究[D];西北大学;2008年
3 张忆;基于XML的频繁模式发现研究[D];合肥工业大学;2006年
4 邱亚娜;信息化教育领域的Web信息抽取技术研究[D];天津师范大学;2008年
5 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
6 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
7 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
8 郭鹏;基于Web数据挖掘分类算法的个性化信息服务[D];太原理工大学;2003年
9 牟刚;基于XML的Web信息挖掘技术的研究[D];重庆大学;2004年
10 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年
,本文编号:585592
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/585592.html