基于逆向匹配的电子商务网站实体模板半自动构建方法
本文关键词:基于逆向匹配的电子商务网站实体模板半自动构建方法 出处:《中文信息学报》2015年02期 论文类型:期刊论文
【摘要】:Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。
【作者单位】: 电子科技大学计算机科学与工程学院互联网科学中心;
【基金】:国家自然科学基金(61103109,11105024,61003231) 中央高校基本科研业务费(ZYGX2011J057,ZYGX2012J071,ZYGX2012J085) 四川省科技项目(2010HH0002,2011GZ0106,20112Z0001,2012RZ0002,2012RZ0003) 高等学校博士学科点专项科研基金(20120185120017)
【分类号】:TP393.092;TP391.1
【正文快照】: 1引言随着网络技术和数据库技术的飞速发展,网络上的信息量越来越大,越来越多的人选择从网上获取自己需要的信息,其中也包括网上购物。电子商务网站上包含了大量信息,用户可以通过这些网页获取商品的主题、参数等信息,但其中的商品网页大多属于深层网络[1],不便于被传统的搜索
【参考文献】
中国期刊全文数据库 前2条
1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
2 杨晓琴;鞠时光;曹庆皇;王秀红;;面向Deep Web数据自动抽取的模板生成方法[J];计算机应用研究;2010年01期
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期
3 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
4 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
5 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
6 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
7 李文;郑邦习;邓武;;基于XML和DOM技术的Web信息抽取模型[J];大连交通大学学报;2013年03期
8 陈天;黄敏;;Web信息抽取中的数据交叉定位[J];华南理工大学学报(自然科学版);2008年05期
9 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期
10 邱江涛;唐常杰;李川;朱军;;基于块分布的新闻网页内容提取[J];吉林大学学报(工学版);2009年05期
中国重要会议论文全文数据库 前3条
1 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 彭鑫;秦秋莉;;基于相关度分析的主题聚焦爬虫研究[A];第六届ABB杯全国自动化系统工程师论文大赛论文集[C];2013年
中国博士学位论文全文数据库 前9条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
7 赵旭剑;中文新闻话题动态演化及其关键技术研究[D];中国科学技术大学;2012年
8 孙妮;B2C购物网站商品评价的效应研究[D];对外经济贸易大学;2014年
9 刘洋;基于信息场的信息影响力评估方法及在引文分析中的应用[D];上海大学;2014年
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
3 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
4 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
5 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
6 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
7 徐艳艳;本体技术在协同学习交互信息处理中的应用研究[D];山东师范大学;2011年
8 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
9 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
10 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
10 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
,本文编号:1308923
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1308923.html