可扩展的网页关键信息抽取研究
本文选题:关键信息 + 信息抽取 ; 参考:《中文信息学报》2015年01期
【摘要】:该文提出了一种可扩展的网页关键信息抽取框架。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率。该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性。同时,该文还提出了模板的正交过滤算法。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性。实验结果验证了上述结论。
[Abstract]:In this paper, an extensible framework for extracting key information from web pages is proposed.The framework combines the template independent automatic information extraction algorithm and the template based information extraction algorithm to improve the extraction accuracy and efficiency.Some key links in the framework can be replaced according to requirements, so the framework has good scalability.At the same time, an orthogonal filtering algorithm for templates is proposed.This algorithm can improve the accuracy of the generated template in essence by introducing it into the template extraction algorithm.The experimental results verify the above conclusions.
【作者单位】: 中国科学院计算技术研究所;中国科学院大学;
【基金】:国家自然科学基金(61100083) 国家863计划基金(2012AA011003)
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
相关会议论文 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关重要报纸文章 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
相关硕士学位论文 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
,本文编号:1740696
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1740696.html