Web中LaTex数学公式提取方法研究
发布时间:2017-04-25 14:13
本文关键词:Web中LaTex数学公式提取方法研究,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的不断发展,网络信息急速增长,大量的信息涌现在互联网上。搜索引擎为广大人们提供了信息检索和共享的一个平台,而传统的搜索引擎在一些方面已经满足不了人们增长的需求。在数学领域,Web中的数学论坛、Wiki等社会性的网站在数学教育方面影响力日益增长,而这些网站中存在大量的数学公式,而全文搜索引擎已经不能满足人们对数学公式搜索能力的要求。因此,如何对这些网站中数学公式进行搜索,对数学方面的学习、科学研究十分重要,其中,数学公式提取是索引系统的前提和基础,是搜索引擎中的重要环节。 在此类网站中,数学公式主要以LaTex、图片等形式存在,本文主要研究LaTex格式的数学公式的提取方法,一方面,本文结合BNF表述方式,提出自动分析提取包含LaTex公式特征的方法,来找出网页中包含LaTex公式的特征;另一方面,依据公式包含特征,提出提取和过滤LaTex数学公式的方法,过滤掉提取内容中存在的非LaTex数学公式,增加提取公式的精度,通过实验发现,该方法的查全率达到75%,查准率达到99%。
【关键词】:数学公式 LaTex 查准率 查全率 BNF 搜索引擎
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 中文摘要3-4
- Abstract4-5
- 目录5-7
- 第一章 引言7-13
- 1.1 背景7-8
- 1.2 研究现状及分析8-12
- 1.2.1 现有数学搜索的研究现状8-11
- 1.2.2 小结11-12
- 1.3 论文结构12-13
- 第二章 相关研究基础13-21
- 2.1 Wiki概述13-14
- 2.2 MathSearch概述14-15
- 2.3 Nutch简介15-17
- 2.3.1 Nutch特点15
- 2.3.2 Nutch系统结构15-17
- 2.4 DOM简介17
- 2.5 正则表达式17-18
- 2.6 LaTex简介18-20
- 2.6.1 LaTex概述18-19
- 2.6.2 LaTex数学公式19-20
- 2.7 小结20-21
- 第三章 LaTex数学公式识别与提取21-37
- 3.1 LaTex数学公式识别与提取过程22-23
- 3.2 自动分析提取包含LaTex数学公式特征23-31
- 3.2.1 Web中在线处理LaTex数学公式方式23-25
- 3.2.2 自动分析提取包含LaTex数学公式过程25-31
- 3.3 提取和过滤LaTex数学公式31-36
- 3.3.1 提取和过滤LaTex数学公式过程31-32
- 3.3.2 采用提取特征提取LaTex数学公式32
- 3.3.3 采用LaTex数学符号提取LaTex数学公式32
- 3.3.4 采用过滤规则过滤提取内容32-36
- 3.4 小结36-37
- 第四章 实验及数据分析37-41
- 4.1 实验平台37
- 4.1.1 平台开发介绍37
- 4.1.2 评价方法及数据选取37
- 4.2 实验结果及分析37-40
- 4.3 小结40-41
- 第五章 总结与展望41-43
- 5.1 总结41-42
- 5.2 展望42-43
- 参考文献43-45
- 附录45-57
- 附录一 LaTex数学符号分类表45-48
- 附录二 LaTex数学符号影响因子统计表48-57
- 在学期间的研究成果57-58
- 致谢58
【参考文献】
中国期刊全文数据库 前5条
1 赵飞;周涛;张良;马鸣卉;刘金虎;余飞;查一龙;李睿琪;;维基百科研究综述[J];电子科技大学学报;2010年03期
2 叶春晓;钟将;冯永;;基于属性的访问控制策略描述语言(英文)[J];Journal of Southeast University(English Edition);2008年03期
3 崔林卫;苏伟;郭卫;李廉;;基于Nutch的Web数学公式提取[J];广西师范大学学报(自然科学版);2011年01期
4 聂俊;陈天莹;符红光;;基于Latex的互联网数学公式搜索引擎[J];计算机应用;2010年S2期
5 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
本文关键词:Web中LaTex数学公式提取方法研究,由笔耕文化传播整理发布。
,本文编号:326464
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/326464.html