基于图像识别的搜题系统的研究与实现
本文关键词:基于图像识别的搜题系统的研究与实现
更多相关文章: 字符识别 图像处理 Tesseract 搜题
【摘要】:随着互联网的不断发展,不仅是生活、工作等,教育教学领域也随着发生了重大的变化。在线教育是教育与互联网整合下的新型的教育方式和教育模式。在线题库是在线教育一个重要的组成部分,通过在线题库我们不仅可以搜索到各种各样的考试试题及其答案与解析,还可以将搜索到的试题组成试卷,这给教师的教与学生的学带来了巨大的帮助。但是,目前在线题库只支持手工输入的搜索功能,这样影响了其搜索的效率。例如,需要搜索的试题题目较长,且不能复制粘贴,此时则需要手工输入进行搜索。虽然我们可以输入一部分作为搜索的关键词,但这样的搜索准确度不高。所以在这种情况下在线题库的搜索效率较低。针对在线题库的不足,本文提出一个基于图像识别技术的搜题系统。此系统可以实现利用图片进行搜索试题的功能。即当需要搜索的试题题目较长或不能复制粘贴的时候,我们可以对其进行截图或者用手机或其他电子设备拍照下来,然后利用此图片进行搜索,最后可以得到图片中显示的试题及其答案与解析。这样的功能对于手机用户来说是非常方便的,因为他们只需用手机一拍便可得到试题的答案与解析。本文旨在实现一个能满足利用图片搜索的、开源、稳定的搜题api系统,为在线题库或其他搜题系统提供基础功能。此系统既克服了在线题库效率低的缺点又顺应了互联网与教育教学不断整合和终身教育理念的要求,而且为用户提供了方便快捷的学习方式。本系统的实现主要涉及到图像处理、图像识别和机器学习等方面的知识。本文详细阐述了基于图像识别的搜题系统的设计与实现,并介绍了实现的方法。本系统的功能原理是,首先发出Web请求,接收到请求后对试题图片进行预处理,主要包括图像校正、图像灰度化、二值化、图像去噪等。然后对图像进行分割和字符识别。最后将识别得到的文本信息作为关键词进行搜索。最终得到试题答案与解析,然后将答案与解析返回给请求用户。本文使用django作为Web框架;利用Open CV库和Python的Image库实现图像预处理和图像分割;对于图像的字符识别,本文使用开源的Tesseract-ocr引擎进行处理,为了提高字符识别的正确率,本文利用Tesseract引擎提供的字符库训练方法进行相关字符库训练,得到了较好的识别效果;对于本系统的数据库,本文选择SQLite数据库.本文最后使用Nginx作为Web服务器对本系统进行测试,测试结果表明,本系统达到了预期的效果。
【关键词】:字符识别 图像处理 Tesseract 搜题
【学位授予单位】:西华师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;G434;TP391.3
【目录】:
- 摘要6-7
- Abstract7-8
- 第1章 绪论8-12
- 1.1 基于图像识别的搜题系统的背景及意义8-9
- 1.2 搜题系统的应用现状9-10
- 1.3 本系统的简介10
- 1.4 本文研究工作和内容安排10-12
- 1.4.1 本文研究工作10-11
- 1.4.2 本文内容安排11-12
- 第2章 搜题系统设计及开发环境12-18
- 2.1 设计目标12
- 2.2 系统结构设计12-13
- 2.2.1 系统软件体系结构12-13
- 2.2.2 系统网络结构13
- 2.3 数据库设计13-15
- 2.3.1 需求分析13
- 2.3.2 数据库逻辑结构设计13-14
- 2.3.3 Python操作SQLite数据库14-15
- 2.4 开发环境的搭建15-18
- 2.4.1 Python简介及安装15-16
- 2.4.2 Python相关库及模块的安装16
- 2.4.3 Tesseract-OCR引擎的安装16-17
- 2.4.4 Django简介及安装17
- 2.4.5 开发工具安装17-18
- 第3章 试题图片预处理18-26
- 3.1 试题图片灰度化18-19
- 3.2 试题图片二值化19-22
- 3.3 试题图片去噪22-23
- 3.4 试题图片倾斜校正23-26
- 3.4.1 常用的图像倾斜校正方法23-24
- 3.4.2 基于像素点的文档图像倾斜角度检测方法24-26
- 第4章 试题图片识别26-33
- 4.1 Tesseract-ocr简介26-27
- 4.1.1 Tesseract-ocr特点26-27
- 4.2 试题图片字符识别27-33
- 4.2.1 准备训练样本图片27-28
- 4.2.2 合并成tif文件28
- 4.2.3 生成Box文件28
- 4.2.4 文字校正28-29
- 4.2.5 生成tr训练文件29
- 4.2.6 生成计算字符集文件29
- 4.2.7 创建字体属性文件29-30
- 4.2.8 生成中间文件30
- 4.2.9 合成traineddata文件30-33
- 第5章 试题搜索33-36
- 5.1 常用Web信息搜索方法33
- 5.2 基于相邻两字符组成关键词的搜索方法33-34
- 5.2.1 去除特殊符号34
- 5.2.2 组建关键词34
- 5.2.3 搜索34
- 5.3 界面设计34-36
- 第6章 系统测试36-40
- 6.1 系统测试环境36
- 6.2 系统功能测试36-38
- 6.2.1 字符识别率测试37
- 6.2.2 搜题准确率测试37-38
- 6.3 系统性能测试38-40
- 6.3.1 系统响应时间测试38
- 6.3.2 系统压力测试38-40
- 第7章 总结与展望40-41
- 7.1 工作总结40
- 7.2 不足与展望40-41
- 参考文献41-43
- 致谢43-46
- 在学期间的科研情况46
【相似文献】
中国期刊全文数据库 前10条
1 杨帆;;《物体的运动》图像识别分析能力的有效形成[J];理科考试研究;2013年10期
2 侯玉娟;;图像识别问题的数学建模研究[J];长春理工大学学报(高教版);2010年02期
3 段丽英;闫友平;赵英豪;刘旭宁;;颗粒图像识别及计数在粮种品质测定中的应用[J];石家庄学院学报;2011年03期
4 陈焕旦;;课件录播系统的图像识别跟踪技术[J];宁波广播电视大学学报;2012年03期
5 沈明睿;图像识别激光教鞭鼠标[J];科学启蒙;2004年05期
6 ;文通信息发布慧视新品OCR技术进入视觉图像识别新领域[J];中国现代教育装备;2005年05期
7 陈宇环;钟剑;谢亦才;;基于形状上下文的血吸虫尾蚴图像识别[J];赣南师范学院学报;2011年06期
8 司佳伟;陈圣俭;;嵌入式视频监控系统中变电站设备的仪表指针图像识别[J];中国电力教育;2007年S1期
9 沈整;图像识别中的Radon数学变换[J];江汉大学学报;1996年03期
10 陈明;包鑫;;基于TMS320LF2407的图像识别流量计设计与开发[J];皖西学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 高晓丁;左贺;高鹏;;基于图像识别的多套色印花对花定位技术研究[A];佶龙杯第四届全国印花学术研讨会论文集[C];2009年
2 郭艳;王萍;朱国;;基于图像识别的射击自动报靶系统[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 姜洪臣;任晓磊;赵耀宏;徐波;;基于音频语谱图像识别的广告检索[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
4 姜洪臣;任晓磊;赵耀宏;徐波;;基于音频语谱图像识别的广告检索技术[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 刘翠响;孙以材;张艳;于明;;基于三控制要素的多项式模糊拟合在人脸图像识别中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
6 林达宜;邱利松;张莎;;物联网发展与图像识别[A];2012全国无线及移动通信学术大会论文集(上)[C];2012年
7 王利强;张红梅;;储粮害虫图像识别知识库研究[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
8 俞建荣;卜凡亮;李文力;陆晓军;;流化床气泡运动的图像识别与分析[A];第三届全国信息获取与处理学术会议论文集[C];2005年
9 李灵;;情景智能图像识别和数字化处理技术在型式评价试验中的运用[A];2013年江苏省计量测试学会学术会议论文集[C];2013年
10 于丽颖;;图像识别方法技术分析与应用[A];第24届全国煤矿自动化与信息化学术会议暨第6届中国煤矿信息化与自动化高层论坛论文集[C];2014年
中国重要报纸全文数据库 前10条
1 记者 郑晓春;以开发出计算机图像识别新技术[N];科技日报;2007年
2 沈晓光邋编译;半导体技术向低耗能发展[N];中国电子报;2008年
3 记者 李红;法研究出图像识别软件[N];科技日报;2000年
4 海言;慧视:让电脑“识文断字”[N];科技日报;2007年
5 田梦;PDF图像识别助推电子政务[N];计算机世界;2007年
6 比尔·盖茨;软件边界不断改变令人兴奋[N];中国电子报;2008年
7 宋辉;摆脱束缚慧视展现新的生活体验[N];中国企业报;2004年
8 本报记者 汤铭;认知计算,,未来计算[N];计算机世界;2013年
9 冯逊;埃及金字塔人类史上最大的谜[N];大众科技报;2010年
10 本报记者 杨学聪 闫静;触碰“最未来”的生活[N];经济日报;2014年
中国博士学位论文全文数据库 前10条
1 刘军;人脸图像识别关键技术的研究[D];北京邮电大学;2015年
2 柳杨;面向图像识别的稀疏模型研究[D];北京邮电大学;2015年
3 王宇新;基于特征分布的图像识别方法研究与应用[D];大连理工大学;2012年
4 陈健美;基于密度聚类和多特征融合的医学图像识别研究[D];江苏大学;2008年
5 冉瑞生;一些矩阵计算问题及其在图像识别中的应用研究[D];电子科技大学;2006年
6 李雅梅;南宋川南墓葬石刻艺术与计算机图像识别应用的研究[D];重庆大学;2008年
7 侯书东;基于相关投影分析的特征提取研究及在图像识别中的应用[D];南京理工大学;2012年
8 吴萌;多尺度表达和正则化方法在图像识别中的研究与应用[D];上海交通大学;2014年
9 谢铉洋;SARS医学图像识别与辅助诊断研究[D];中国科学技术大学;2006年
10 孙权森;基于相关投影分析的特征抽取与图像识别研究[D];南京理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 王明静;蚁群算法在图像识别中的应用研究[D];西安石油大学;2015年
2 刘宜阔;热光关联图像识别的研究[D];河北大学;2015年
3 田湘源;基于图像识别的中国画真伪鉴别方法研究[D];西安建筑科技大学;2015年
4 任皓;基于图像识别的PCB焊接质量检测技术的研究[D];天津理工大学;2015年
5 王倩;基于图像识别的油画真伪鉴别方法研究[D];西安建筑科技大学;2015年
6 余征;基于Hadoop的人脸图像识别并行处理方法研究与实现[D];西南交通大学;2015年
7 马爽;基于图像识别的教室照明节能系统的技术研究[D];沈阳理工大学;2015年
8 李义;基于相关学习神经网络的图像识别方法研究[D];哈尔滨工业大学;2015年
9 李东;基于群智能算法优化的超声乳腺肿瘤图像识别[D];第四军医大学;2015年
10 林开彬;基于图像识别的无纸化阅卷空白题识别技术研究[D];贵州师范大学;2015年
本文编号:1031605
本文链接:https://www.wllwen.com/jiaoyulilunlunwen/1031605.html