当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的Web数学公式提取

发布时间:2018-08-09 18:45
【摘要】:本文主要研究基于公式的数学搜索引擎中数学公式的识别和提取方法,总结了MathML、Open-Math、LaTex、Infix格式数学公式在网页中出现时的各自特征,提出了基于特征和启发式规则的公式识别和提取方法,并用实验说明了该识别和提取方法的可行性和准确率。
[Abstract]:In this paper, the methods of recognizing and extracting mathematical formulas in mathematical search engine based on formulas are studied, and the characteristics of MathML-Open-MathMath LaTexinfix format when they appear in web pages are summarized. A formula recognition and extraction method based on feature and heuristic rules is proposed. The feasibility and accuracy of the method are illustrated by experiments.
【作者单位】: 兰州大学信息科学与工程学院;
【基金】:国家自然科学基金资助项目(61003139,60903102) 兰州大学中央高校基本科研业务费专项资金(lzujbky-2010-90)
【分类号】:TP391.3

【参考文献】

相关硕士学位论文 前1条

1 景珂;网络数学搜索中的数学查询语言与索引的研究[D];兰州大学;2009年

【共引文献】

相关期刊论文 前2条

1 聂俊;陈天莹;符红光;;基于Latex的互联网数学公式搜索引擎[J];计算机应用;2010年S2期

2 蔡川;苏伟;李廉;;Presentation数学公式到Content转换关键问题研究[J];计算机应用与软件;2012年08期

相关硕士学位论文 前2条

1 郭作勇;电子公式词典的设计[D];汕头大学;2011年

2 崔林卫;Web数学公式提取方法的研究[D];兰州大学;2012年

【相似文献】

相关期刊论文 前10条

1 聂俊;陈天莹;符红光;;基于Latex的互联网数学公式搜索引擎[J];计算机应用;2010年S2期

2 蔡建超;郭一平;王亮;;基于Lucene.Net校园网搜索引擎的设计与实现[J];计算机技术与发展;2006年11期

3 李艳红;;浅谈搜索引擎的研究现状[J];才智;2009年35期

4 谭爱平;成亚玲;;搜索引擎技术综述[J];湖南工业职业技术学院学报;2008年03期

5 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

6 邵雄凯;梁云静;刘建舟;;基于遗传算法的主题信息搜索研究[J];网络安全技术与应用;2009年11期

7 谢能付;王文生;段延娥;;基于概念空间的领域信息爬虫设计研究[J];江西师范大学学报(自然科学版);2008年02期

8 宋妍;搜索引擎:大众趣味探测剂[J];互联网周刊;2004年04期

9 汪小栋,董红斌;一种基于Linux平台的搜索引擎初探[J];计算机应用研究;2002年06期

10 卢托;于俊清;廖兆存;聂江;;基于Web的数学公式检索系统设计与实现[J];微处理机;2008年02期

相关会议论文 前10条

1 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年

2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 苏伟;基于Web的数学公式输入及可访问性关键问题研究[D];兰州大学;2010年

10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

相关硕士学位论文 前10条

1 刘志伟;数学搜索引擎研究[D];兰州大学;2011年

2 罗伟;基于移动Agent的主题搜索引擎研究[D];中南民族大学;2008年

3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

9 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

10 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年



本文编号:2174969

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2174969.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c7575***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com