基于B2B垂直搜索的网页信息抽取系统研究
本文关键词:基于B2B垂直搜索的网页信息抽取系统研究
更多相关文章: BB垂直搜索 网页信息抽取 企业站点树 去噪
【摘要】:为了解决从网页中准确抽取产品信息这一B2B垂直搜索引擎的关键问题,以站点树为模型,首先分析了企业网站的结构特征,在此基础上构建了一个面向B2B垂直搜索引擎的网页信息抽取系统。该系统利用站点树在企业站点大量网页中识别出产品页,并进行去噪处理,然后使用基于规则的方法抽取产品页中包含的产品描述信息和参数信息。通过该系统抽取到的各类产品信息较为准确,且效率得到明显提高,适用于B2B垂直搜索引擎中对产品的描述、分类及搜索。
【作者单位】: 南海舰队司令部;中国劳动关系学院;
【基金】:中央高校基本科研业务费专项基金项目(12zy019)
【分类号】:TP393.092
【正文快照】: 0引言垂直搜索是针对某一行业、某一领域或某一主题而进行的专业搜索,是综合搜索技术的深化。B2B(Business to Business)指企业间通过互联网进行产品、服务及信息交换,是电子商务的重要组成部分。企业用户在使用B2B平台进行一次特定的商业交易时,通常只关注某个类别、某个品
【参考文献】
中国期刊全文数据库 前8条
1 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
2 周明建,高济,李飞;基于本体论的Web信息抽取[J];计算机辅助设计与图形学学报;2004年04期
3 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
4 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
5 林文清;;B2B垂直搜索引擎在信息获取技术中的应用[J];情报杂志;2007年09期
6 余淼;杨丹;赵俊芹;;垂直搜索引擎的关键技术研究[J];软件导刊;2007年23期
7 罗立宏;陈志;;基于语义分析的垂直搜索网络蜘蛛[J];计算机工程与设计;2008年18期
8 赵金仿;赵艳;缪建明;;网页信息抽取及其自动文本分类的实现[J];计算机技术与发展;2008年10期
【共引文献】
中国期刊全文数据库 前10条
1 王晓璐;刘海芳;王凡;;基于模糊专家系统的鱼疾病诊断方法[J];安徽农业科学;2008年09期
2 刘秋红;焦仁普;张钰;李娟;王哲;;基于产生式规则和归结原理的农业专家系统[J];安徽农业科学;2008年10期
3 张钰;刘秋红;王哲;;AGA在植物病理专家系统中的应用研究[J];安徽农业科学;2009年24期
4 王兴旺;金宝华;;基于WEB的桃树病虫害决策支持系统设计与实现[J];安徽农业科学;2010年12期
5 濮永仙;;贝叶网在农业专家系统中的研究与应用[J];安徽农业科学;2011年07期
6 汪明磊,李炜疆;脯氨酸顺式肽键的神经网络筛选[J];安徽农业大学学报;2003年04期
7 郭相坤,周益明,姚杰;高分子材料的红外光谱解析系统[J];安庆师范学院学报(自然科学版);2004年01期
8 李林林;王平;孙良旭;;Snort规则库在高炉专家系统知识库的移植[J];辽宁科技大学学报;2008年06期
9 李林林;孙良旭;王平;;Snort规则库在高炉专家系统知识库的移植[J];辽宁科技大学学报;2009年01期
10 张喜平,冯乃勤;计算机人工智能中模糊度分析研究[J];安阳师范学院学报;2003年02期
中国重要会议论文全文数据库 前10条
1 杨阳;陈宗海;张海涛;;复杂系统仿真的前端智能化综述[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
2 高倩;吴仁彪;刘家学;;一种基于自适应幂变换的HRRP-ATR方法[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
3 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
4 韩文芳;;IPTV比数字电视更适应未来[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
5 张留俊;;公路软基处理方案决策的人工神经网络模型[A];工程排水与加固技术理论与实践——第七届全国工程排水与加固技术研讨会论文集[C];2008年
6 王芳;谷文祥;;一种在图规划框架下处理不确定性和感知动作的新算法[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
7 李春鑫;李天伟;王孝通;黄谦;;基于决策树改进CART算法的ANFIS结构辨识技术[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
9 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
10 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 陶勇;知识辅助的SAR图像目标特性分析与识别研究[D];国防科学技术大学;2010年
4 周俊萍;自动推理与规划问题最小上界和相变规律研究[D];吉林大学;2011年
5 陶媛;基于生物免疫的动态风险识别模型研究与应用[D];上海大学;2011年
6 丁杰;无限制手写体数字串切分与识别的相关问题研究[D];南京理工大学;2010年
7 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
8 王秀美;隐变量模型的建模与优化[D];西安电子科技大学;2010年
9 陈国荣;面向服务的滚齿机故障诊断模式及关键支撑技术研究[D];重庆大学;2011年
10 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 蒲锰;非侵入式矿井提升机PLC电控系统实时故障诊断方法的研究[D];山东科技大学;2010年
4 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
5 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
6 常春艳;矿山土地复垦方案论证管理系统研究[D];山东农业大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 韦哲;基于上下文感知技术的WSN路由协议研究[D];大连理工大学;2010年
9 朱利君;基于茶学领域本体的智能检索研究[D];安徽农业大学;2010年
10 王诚;齿轮精度设计及加工误差分析智能系统研究[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
3 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
4 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
5 李朝光,张铭,邓志鸿,杨冬青,唐世渭;论文元数据信息的自动抽取[J];计算机工程与应用;2002年21期
6 邹娟;周经野;邓成;;一种基于语义分析的中文特征值提取方法[J];计算机工程与应用;2005年36期
7 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
8 孙登峰;面向XML文档的概念检索技术[J];计算机应用;2003年01期
9 雷育生,甘仞初,杜顶;基于垂直网站的网络信息支持系统研究[J];计算机应用研究;2005年07期
10 钱兵;王永成;高凯;;面向搜索引擎的自然语言理解的设计与实现[J];计算机应用研究;2006年12期
【相似文献】
中国期刊全文数据库 前10条
1 崔阳;吴爱华;;一种面向B2B垂直搜索的网页信息去噪方法[J];计算机技术与发展;2008年12期
2 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
5 谭晓玲,许勇,张凌,梅成刚,刘兰;基于小波分解的网络流量模型[J];计算机工程与应用;2005年09期
6 傅华忠;茅剑;;基于DBSCAN聚类算法的Web文本挖掘[J];科技信息;2007年01期
7 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[J];计算机工程;2007年19期
8 陈金鑫;罗立群;;基于主体知识库的Web主体信息抽取系统[J];软件导刊;2007年19期
9 ;[J];;年期
10 ;[J];;年期
中国硕士学位论文全文数据库 前9条
1 李颖;Web验证码的生成与识别[D];南京理工大学;2008年
2 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
3 万乐;网页的预处理技术[D];吉林大学;2008年
4 苏秀芝;网页去噪与特征提取算法的研究及实现[D];西南交通大学;2010年
5 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
6 栾艳;基于段落指纹的大规模近似网页检测算法研究[D];南京理工大学;2012年
7 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
8 任海果;基于主题事件的舆情分析系统的设计与实现[D];北京邮电大学;2012年
9 孙凯;Rainbow密码硬件安全性分析工具的设计与实现[D];华南理工大学;2012年
,本文编号:1304242
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1304242.html