脱机中文手写文档检索关键技术研究
本文关键词:脱机中文手写文档检索关键技术研究,由笔耕文化传播整理发布。
《武汉大学》 2013年
脱机中文手写文档检索关键技术研究
黄亮
【摘要】:随着计算机和网络技术的迅速发展以及各种数字化设备的出现,越来越多的纸质文档需要被转化为图像格式的电子文档,以方便存储、传输和编辑。与此同时,文档图像的信息获取成为计算机智能技术的研究热点,脱机手写文档的识别和检索更是技术难点。文档识别技术虽然取得了很大的进步,但是受识别精度的影响,不能够正确识别的词语就无法找到,导致召回率不够高。而关键词检索技术是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以找到更多有用的信息。本文对脱机手写文档检索的两个关键问题进行了深入的研究:手写文本行分割和关键词检索。 本文在这方面的主要工作和贡献如下: (1)为了更好地提取手写文档中的文本行,本文提出了一种基于图聚类融合准则的文本行分割算法。该算法利用自适应游程平滑算法和最小张树聚类算法的文本行分割结果构造文档结构图,该文档图中的各顶点与文档图像的联通部件一一对应,而文档图中的边表示其连接的两定点所代表的的联通部件可能处于同一文本行。给出了基于误操作代价的文档图边的权值的评价准则,然后利用误操作(这里的误操作主要有两种类型:误分裂和误合并)代价最小化准则对文档图的边进行自动删除,以达到对同行的联通部件进行聚类以提取文本行的目的。同时利用基于监督学习的策略优化文档图的边上权值函数中的参数。在HIT-MW数据库上的实验结果为召回率99.31%、错误率0.94%。该实验结果充分表明了本算法的有效性和正确性。 (2)对自适应游程平滑算法和最小张树聚类算法进行改进。对自适应游程平滑算法的改进主要有以下三点:(a)利用基于监督学习的方法对游程平滑规则中经验参数优化;(b)利用投影法对平滑后图像中包含行间粘连的联通部件进行切分;(c)利用一系列经验规则对较短的文本行片段进行合并。对最小张树聚类算法的改进主要有以下两点:(a)扩充了用于距离测度学习的特征空间,进一步提高了距离测度的判别能力;(b)利用描述相邻联通部件几何位置信息的特征训练的线性SVM对生成的最小张树进行预剪枝。从实验结果看,这些改进都提高了各自算法的性能并降低了计算复杂度。 (3)基于贝叶斯决策(Bayesian decision)理论,本文给出了基于统计模型并融合多种上下文信息的关键词检索方法,提出了三种检索模型: (a)单字检索模型。该模型利用单字候选模式的字符分类器信息和一元几何上下文信息来判定其字符类别标记是否是待查询关键词的某个单字文本。 (b)词匹配模型。该模型利用词内各单字文本对应的图像候选模式的字符分类器信息和一元几何上下文以及相邻单字候选模式之间的二元几何上下文信息来检索待查询关键词的图像候选模式。 (c)扩展的词匹配模型。该模型利用词外扩展的单字候选模式与词内首尾单字候选模式之间的二元几何上下文信息、以及二元文法语言上下文信息对由上述词匹配模型得到的词候选模式进行过滤,进一步提高系统的检索精度。 (d)为了克服词长对上述模型(单字检索模型除外)的影响提出了基于词长归一化的修正;最后,为了更好的平衡多种上下文模型,给出了一种基于两类交叉熵最小化学习准则,自动学习检索模型中各种上下文信息的融合权重。在实验中,与基于文本识别的检索方法进行了比较,该文本识别方法的切分-识别路径评价准则也是融合了上述多种上下文信息,并利用字符准确率最大化学习准则,自动学习识别路径评价准则函数中各种融合权重。从实验结果来看,在进行关键词检索时,本文的方法与基于识别后文本搜索的方法相比,在设置适当的阈值时,能得到更高的召回率。 从在CASIA-HWDB数据库上进行的实验来看,该方法取得了较理想的效果。
【关键词】:
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.41
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前3条
1 丁晓青;汉字识别研究的回顾[J];电子学报;2002年09期
2 高学;金连文;尹俊勋;;一种基于笔画密度的弹性网格特征提取方法[J];模式识别与人工智能;2002年03期
3 陈友斌,丁晓青,吴佑寿;一种手写汉字特征抽取的新方法[J];信号处理;1998年02期
【共引文献】
中国期刊全文数据库 前10条
1 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
2 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
3 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
4 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
5 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
6 尚磊;刘风进;;基于支持向量机的手写体数字识别[J];兵工自动化;2007年03期
7 胡淑燕;郑钢铁;;应用支持向量机的眼睑参数疲劳预测[J];北京航空航天大学学报;2009年08期
8 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
9 陈增照;杨扬;董才林;何秀玲;;支持向量机动态学习方法及其在票据识别中的应用[J];北京科技大学学报;2006年02期
10 郭辉;刘贺平;王玲;;基于最小二乘支持向量机对偶优化问题的核偏最小二乘[J];北京科技大学学报;2006年08期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
10 戴明洋;杨大利;徐明星;;语音情感识别中UBM训练集的组成研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
5 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
8 刘建明;古代壁画图像保护与智能修复技术研究[D];浙江大学;2010年
9 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
10 李卓;图像信息隐藏与隐写分析算法的研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
4 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
5 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
6 方宇;小波支持向量机在交通流预测中的应用研究[D];大连理工大学;2010年
7 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
8 李林;基于可靠性的TBM刀盘轻量化设计[D];大连理工大学;2010年
9 李艳萍;基于自主学习的移动机器人质心偏移控制策略[D];大连理工大学;2010年
10 梅丽;人类启动子识别算法研究[D];辽宁师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 丁晓青,吴佑寿;模式识别统一熵理论[J];电子学报;1993年08期
2 李元祥,丁晓青,刘长松;基于HMM的汉语文本识别后处理研究[J];中文信息学报;1999年04期
3 陈明,丁晓青,梁健;复杂中文报纸的版面分析、理解和重构[J];清华大学学报(自然科学版);2001年01期
4 陈友斌,丁晓青,吴佑寿;一种手写汉字特征抽取的新方法[J];信号处理;1998年02期
【相似文献】
中国期刊全文数据库 前10条
1 唐琼;袁顺波;;国外少儿搜索引擎比较研究[J];图书馆杂志;2005年11期
2 石运华;主题词检索与关键词检索[J];图书馆论坛;1985年01期
3 熊忠阳;李春玲;张玉芳;;一种基于领域本体的混合信息检索模型[J];计算机工程;2008年21期
4 孙清玉;;有效的信息检索技术——全文检索[J];情报探索;2010年02期
5 赵俊杰;;一种用于关键词检索的快速字符串精确匹配算法[J];计算机系统应用;2010年02期
6 朱小平;;关键词检索技术与应用技巧[J];咸宁学院学报;2006年04期
7 潘瑞冰;;基于概念控制的自然语言检索优化[J];农业图书情报学刊;2007年07期
8 潘文;刘增良;周广焕;;一种基于自动化和动态加载技术实现对Office文档进行关键词检索[J];计算机应用与软件;2008年04期
9 廖凤;张建勇;;Keyword Cloud在文献检索中的应用研究[J];图书馆杂志;2010年09期
10 王霅煜;涂惠燕;;基于内容的语音课件关键词检索系统:设计与实现[J];计算机应用与软件;2011年04期
中国重要会议论文全文数据库 前10条
1 刘喜平;万常选;刘德喜;;基于语义返回XML关键词检索结果[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 秦秉玉;王存真;;脱机指标的评价[A];中国危重病医学大会-2011暨北京医学会重症医学年会汇编[C];2011年
3 余晋;邓志鸿;唐世渭;;XMLSearch:通用XML文档检索系统[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 田卓民;;机械通气治疗中的挑战脱机病人[A];2003年全国危重病急救医学学术会议论文集[C];2003年
5 周卓;;机械通气治疗急性重度心力衰竭患者BNP动态变化及意义[A];2009年浙江省检验医学学术年会论文汇编[C];2009年
6 吴振东;史殿习;丁博;王怀民;;上下文态势感知框架的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
7 李求实;王秋月;王珊;;平衡IO和CPU的XML关键词检索技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 刘勘;刘萍;;一种对学术论文关键词权值的动态调整方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 向永清;邓志鸿;于航;高宁;;面向XML文档的二级索引技术及其在XML关键词检索中的应用研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 毕文静;沈华伟;刘悦;许洪波;程学旗;;基于企业环境的专家检索研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 广西 梁志强;[N];电脑报;2002年
2 ;[N];中国新闻出版报;2003年
3 湖北 赵葳;[N];中国电脑教育报;2001年
4 清华大学计算机系 王克宏 刘英群;[N];计算机世界;2003年
5 文晨;[N];中国新闻出版报;2006年
6 本版编辑董娟 张一君;[N];中国经营报;2006年
7 本报记者 刘丽丽;[N];计算机世界;2008年
8 曹玉林 汤松泉;[N];农民日报;2003年
9 广东 孙其雄;[N];电子报;2005年
10 王政;[N];电脑商报;2006年
中国博士学位论文全文数据库 前10条
1 黄亮;脱机中文手写文档检索关键技术研究[D];武汉大学;2013年
2 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年
3 田大增;视觉文档图像识别预处理[D];河北大学;2007年
4 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
5 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
6 王玉祥;业务上下文的处理机制及其预测理论、关键技术研究[D];北京邮电大学;2010年
7 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年
8 周晖;高分辨率遥感图像的层次化分析方法[D];国防科学技术大学;2010年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 姜辉;Smartcare等通气模式对慢性阻塞性肺病患者呼吸力学的影响[D];中国人民解放军军医进修学院;2005年
中国硕士学位论文全文数据库 前10条
1 李化;基于图像内容的文档检索方法研究[D];延边大学;2010年
2 付兴刚;基于笔画距离的手写文档检索算法研究[D];哈尔滨工业大学;2009年
3 金鑫;多媒体文档检索研究[D];西安电子科技大学;2012年
4 陆明明;基于词格的语音文档检索技术研究[D];解放军信息工程大学;2012年
5 范晔斐;蒙汉英混排文档图像的文种识别研究[D];内蒙古大学;2013年
6 党兴;复杂的中文文档图像版面分析研究[D];苏州大学;2010年
7 张国良;基于改进词袋的多媒体文档检索研究[D];西安电子科技大学;2013年
8 张小恒;联机结构化手写文档和手势设计[D];西北大学;2007年
9 戴刚;基于使用控制和上下文的模糊访问控制模型研究[D];重庆大学;2009年
10 石爱萍;基于语义距离的Web页面关键词获取研究[D];江苏科技大学;2011年
本文关键词:脱机中文手写文档检索关键技术研究,,由笔耕文化传播整理发布。
本文编号:88578
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/88578.html