当前位置:主页 > 管理论文 > 移动网络论文 >

图书网页的自动识别及书目信息抽取研究

发布时间:2017-12-30 01:05

  本文关键词:图书网页的自动识别及书目信息抽取研究 出处:《现代图书情报技术》2014年04期  论文类型:期刊论文


  更多相关文章: 图书网页 书目信息 自动识别 信息抽取


【摘要】:【目的】以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。【方法】在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。【结果】实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。【局限】该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。【结论】此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
[Abstract]:......
【作者单位】: 武汉大学信息管理学院;武汉大学信息资源研究中心;武汉大学图书馆;
【基金】:湖北省高校图工委基金项目“传统分类体系下多种类型文献自动分类研究”(项目编号:2012YB02)的研究成果之一
【分类号】:TP391.1;TP393.092
【正文快照】: 1引言伴随着互联网的快速发展,网络信息逐渐覆盖了政治、经济、文化等各个领域。网页文档本身作为一种信息传递的载体,丰富人们信息来源的同时,也给人们获得有用信息带来了极大的困难。面对浩瀚的网络信息资源,如何有效地抽取网页信息,帮助用户快速获得所需要的细粒度信息,已

【参考文献】

相关期刊论文 前10条

1 施洋;张奇;黄萱菁;;含有语义特征的网页新闻自动抽取[J];计算机工程;2010年07期

2 杨舟;卓林;赵朋朋;崔志明;;一种针对商品数据记录的自动抽取方法[J];计算机工程;2010年23期

3 刘伟;严华梁;;一种统一的Web新闻对象自动抽取方法[J];计算机工程;2012年11期

4 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期

5 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期

6 吴晓彦;郑骁庆;顾轶灵;沈元一;;基于结构语义熵的网上商品信息提取系统[J];计算机应用与软件;2010年09期

7 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

8 王瑞;周喜;李晓;;基于正文相关度的维吾尔网页正文提取[J];计算机工程;2012年21期

9 唐伟;洪宇;冯艳卉;姚建民;朱巧明;;网页中商品“属性—值”关系的自动抽取方法研究[J];中文信息学报;2013年01期

10 孔胜;王宇;;一种基于正文特征的新闻网页抽取方法[J];情报杂志;2010年08期

【共引文献】

相关期刊论文 前10条

1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期

2 胡迪;陈运;杨义先;陈悦;;基于支持向量机与余弦夹角法的中文网页过滤的研究与设计[J];成都信息工程学院学报;2011年05期

3 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期

4 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期

5 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期

6 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期

7 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期

8 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期

9 余伟;;基于本体的微博客用户行为模型研究[J];广东技术师范学院学报;2010年06期

10 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期

相关会议论文 前4条

1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年

2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年

4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前3条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年

3 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年

相关硕士学位论文 前10条

1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年

2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年

3 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年

4 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年

5 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年

6 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年

7 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年

8 陈晶;基于网页的信息抽取的研究[D];西安工业大学;2011年

9 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年

10 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年

【二级参考文献】

相关期刊论文 前10条

1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期

2 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期

3 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期

4 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期

5 吴麒;陈兴蜀;谭骏;;基于权值优化的网页正文内容提取算法[J];华南理工大学学报(自然科学版);2011年04期

6 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期

7 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

8 袁家政;须德;鲍泓;;基于结构与文本关键词相关度的XML网页分类研究[J];计算机研究与发展;2006年08期

9 韦勇;连一峰;冯登国;;基于信息融合的网络安全态势评估模型[J];计算机研究与发展;2009年03期

10 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期

相关硕士学位论文 前3条

1 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年

2 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年

3 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年

【相似文献】

相关期刊论文 前10条

1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期

2 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期

3 火善栋;;FORM表单反馈网页信息抽取的研究与实现[J];电脑知识与技术;2009年09期

4 陈一峰;赵恒凯;余小清;万旺根;;基于遗传算法的主题爬虫策略改进[J];计算机仿真;2010年10期

5 谢宝荣;;用HTML语言编制多层网页[J];计算机教育;2007年07期

6 朱庆光;;限时游戏、上网、定时关机、过滤不良网页信息——中国第一套家庭电脑管理软件面世[J];科学与文化;2004年01期

7 卢正鼎;张茂元;;一种基于义素的网页信息项语义匹配方法研究[J];计算机科学;2005年04期

8 刘伟,朱玲,王慧玲,贾陆;药师实用互联网药学资源的检索[J];中国药房;2002年10期

9 邢玲;马建国;李幼平;刘志文;;一种基于UCL的中文网页信息过滤方法[J];电子学报;2006年10期

10 武晓娟;;基于网站的搜索引擎研究[J];软件;2008年06期

相关会议论文 前10条

1 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

2 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

3 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年

4 李芳;盛焕烨;;特定领域专家主页信息的自动抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 邵辉;李芳;;基于树模型算法的动态网页信息抽取研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

7 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

8 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年

9 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

10 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关重要报纸文章 前3条

1 郑依华;搜索引擎也开源[N];计算机世界;2006年

2 本报记者 刘燕;中间件助力“转方式、调结构、惠民生”[N];科技日报;2010年

3 本报记者 吕刚;信息搜索不再上演“百团大战”[N];国际商报;2003年

相关博士学位论文 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

4 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

5 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年

6 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年

7 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

8 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

9 单栋栋;搜索引擎中索引剪枝的研究[D];北京大学;2013年

10 陈冬玲;基于潜在语义的个性化搜索关键技术研究[D];东北大学;2009年

相关硕士学位论文 前10条

1 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年

2 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年

3 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年

4 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年

5 薛惠;基于JAVA的移动新闻搜索引擎的研究与设计[D];河北科技大学;2010年

6 杨宇;搜索词的意图分析与应用[D];北京邮电大学;2010年

7 王立建;中文web文本过滤技术研究[D];中北大学;2010年

8 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年

9 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年

10 段飞;相似网页识别算法的研究与实现[D];北京邮电大学;2011年



本文编号:1352642

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1352642.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cd51d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com