当前位置:主页 > 科技论文 > 软件论文 >

基于SWT元数据提取的研究与实现

发布时间:2020-08-13 10:27
【摘要】:现今越来越多的PDF出现在网络上,并以每天数以万计的速度增长着。面对如此海量的PDF文档,如何获取其中的有用信息,并将其分门别类的保存下来,无论是对PDF的归档还是对科学研究都将会具有重要的意义。本课题的目的是设计并实现一种基于SWT的元数据提取工具,该工具可以用来对PDF中图书元数据进行自动提取并将数据进行持久化导出。该工具相比于手工提取元数据的方式,具有更高的准确性和高效性,可以极大程度的提高元数据提取的效率。本课题通过对AWT、SWING、SWT/JFace几种常用的Java GUI框架的对比与分析,从而选择目前最为优秀的SWT框架作为本课题进行元数据提取工具的桌面开发框架。在PDF文本的抽取方式上,通过对比PDFBox和iText两种常用的操作PDF的Java类库在PDF文本信息提取方面的优缺点,选择性能更加优秀的PDFBox作为PDF文本提取的技术选型。同时在提取过程中根据权重排序算法设计并实现拼音辅助提示来弥补自动提取的缺陷。为了保护软件的知识产权和购买者的合法权益,在工具中添加了基于RSA的登录授权验证机制。考虑到工具的维护与升级,使用了基于log4j的日志管理系统。同时为了抵抗断电、程序异常关闭等不确定性因素所带来的灾难性损失,本工具设计了自动保存的容灾机制。最后通过大量的测试和分析,得出本工具完全满足课题的要求,可以大大提高元数据提取的速度和准确率的结论。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.52
【图文】:

框架图,体系框架,运行环境,框架


第二章关键技术研究面应用程序,但是这些插件不是自动运行的,它们的执行需要一个外在这个条件提供插件运行所需要的各种资源。而这个启动条件就是由实的规范来提供的。逡逑SGI邋(Open邋Service邋Gateway邋Initiative)技术是面向邋JAVA邋的动态模型系系列规范网。OSGI框架具有优雅、完整和动态组合的特点。应用程序可启动、安装、升级、卸载而不需要重新引导。因此广泛应用于无需重启变构造的网络设备上。OSGI技术提供一种松耦合可管理的面向服务的,这种模式使得组件可以动态的发现对方。逡逑SGI规范的核心组件是OSGI框架。其框架图如下:逡逑

流程设计,元数据,文本编辑器,图书版权


图3-1功能模块分解图逡逑.邋1.2流程设计逡逑根据本课题的需求,工具使用的主体流程为:r『先导入PDF,加载PDF使逡逑显示在SWT构建的PDF阅读器中,然后利用JAVA类砟PDFBox将包含元数逡逑的图书版权页信息提取到文本编辑器中,接着在文本编辑器中进行阁书版权页逡逑数据的提取,如果没有元数据遗漏或者错误则直接将元数据持久化成xml和逡逑ls文件,如果元数据提取有遗漏则借助手工干预,使用拼音辅助提S瓮瓿梢怕╁义鲜莸奶崛。觳槲尬蠛蠼崛〉脑莩志没桑恚旌停欤笪募e义掀渚咛辶鞒倘缦拢哄义希保冲义

本文编号:2791881

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2791881.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc115***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com