文本信息抽取优化关键技术研究与系统实现
发布时间:2021-12-09 05:18
随着大数据时代的快速发展,企业在日常经营和信息化建设过程中产生大量富有价值的数据信息。如何从海量分散的数据中快速且准确地分析出真正有用的信息是当前数据挖掘领域的重要研究内容。文本信息抽取技术正是数据挖掘领域的核心问题之一。在一些语义明确的场景下,基于规则的信息抽取方法在抽取的准确率和召回率方面都有优异的表现。对于较大规模待抽取数据,提升信息抽取系统效率的关键技术是提高正则表达式的匹配速度。在此背景下,本文对基于正则表达式匹配的信息抽取技术进行了深入研究,通过对当前正则表达式匹配加速相关的几种经典算法的比较和分析,针对原始DFA算法状态跳转查找表中存在的问题,提出了基于字符分组的查找表压缩算法的设计方案,并依托实验室FPGA硬件平台实现了对正则表达式匹配速度的优化,并对基于该优化方案的信息抽取系统进行了设计和实现。本文首先介绍了信息抽取系统的主要任务、常用方法和评价标准,又介绍了正则表达式匹配技术的常用方法和匹配过程的研究现状。然后通过分析现有正则表达式匹配技术的技术瓶颈,提出一种基于字符分组的正则表达式匹配优化算法,并对算法的性能进行测试和分析。实验结果表明,经过字符分组优化后的查找表...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图3-3原始查找表单个字符匹配流程??在这种原始查找表的匹配过程中,每个字符的匹配都需要经历如图3-3所示??的匹配流程,即从读取一个待匹配字符开始,先根据当前激活状态查找状态的起??,,
?I??j?[B]?100CMC?0?I??图3-6位图的生成过程??取字符?j??<??读取下一行??否??否有命中?为取后??I?JL??是??Z分组掩码是否王??|??是???3:???更新激活状态,跳至对???应碰?|?是??▼??结束?>一??图3-7基于位图的查找表单个字符匹配流程??22??
图3-6位图的生成过程??
本文编号:3529997
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图3-3原始查找表单个字符匹配流程??在这种原始查找表的匹配过程中,每个字符的匹配都需要经历如图3-3所示??的匹配流程,即从读取一个待匹配字符开始,先根据当前激活状态查找状态的起??,,
?I??j?[B]?100CMC?0?I??图3-6位图的生成过程??取字符?j??<??读取下一行??否??否有命中?为取后??I?JL??是??Z分组掩码是否王??|??是???3:???更新激活状态,跳至对???应碰?|?是??▼??结束?>一??图3-7基于位图的查找表单个字符匹配流程??22??
图3-6位图的生成过程??
本文编号:3529997
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3529997.html