中文文本自动校对系统设计与实现
发布时间:2017-12-07 04:24
本文关键词:中文文本自动校对系统设计与实现
更多相关文章: 文本审校 命名实体识别 命名实体链接 字典树 Spring MVC
【摘要】:互联网数据快速增长给人们生活带来了丰富的信息,但同时也造成了互联网信息质量的下降。新闻出版及广播电视等行业对文本质量有较高的要求,而这些行业的审校工作目前仍以人工审校为主。以中文文本为例,在中文词语、汉语拼音、数字号码、标点符号等方面均存在或多或少的问题。随着因特网上中文文本的快速增长,相关错误在不断累积,这极大降低了文本的利用价值,同时加重了人工审校的负担。此外,中文载体的多样性也使得人工审校愈发力不从心。然而现有的很多文本审校软件都很难处理不同形式、不同格式、不同载体的审校问题,因此,针对中文文本研发自动审校的方法与系统具有重要的实际意义。基于以上背景,本文针对中文文本常见的错误构建了一个自动校对系统,并从以下几个方面展开了工作:1.对中文文本自动校对系统进行系统需求分析,详细分析系统的用户需求,业务需求以及功能需求。并采用MVC框架对审校系统进行设计,具体分析并设计了每一层所包含的功能,同时分析和设计了审校服务的具体功能,具体包括词语审校、标点符号审校、数字审校和拼音审校。2.深入研究了词语审校、标点符号审校、数字审校以及拼音审校的实现方法,采用条件随机场(Conditional Random Fields,CRF)结合分词的技术识别文本中的实体,并采用实体链接的技术来实现词语审校中的实体名称审校,而词语审校中的常用词语审校和敏感词审校则采用构建字典树的方式来实现;针对标点符号和数字审校主要采用的是构建规则库来实现;对于拼音审校,本文先利用拼音获取工具包获取带有标注拼音词语的正确拼音,然后再与原文中的标注拼音进行比较,若二者不同则对原文中的标注拼音进行校对。3.实现B/S模式的中文文本自动校对系统。本文采用的Spring MVC框架来实现该系统的Web框架,包括Spring MVC框架的配置,前台JSP的编写以及控制器程序的编写等。本文所构建的中文文本自动校对系统可以校对出词语、标点符号、数字和拼音等中文文本中常见的错误。而且本文所构建的系统支持在线和离线两种校对模式,用户既可以将短文本输入到网页编辑框内校对,也可以上传Word文件到服务器进行校对。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
中国期刊全文数据库 前10条
1 尹存燕;黄书剑;戴新宇;陈家骏;;中英命名实体识别及对齐中的中文分词优化[J];电子学报;2015年08期
2 张盛;李芳;;基于迭代两步CRF模型的评价对象与极性抽取研究[J];中文信息学报;2015年01期
3 王斯宇;邵波;;基于CSSCI的文本自动校对系统的构建与实现[J];高校图书馆工作;2014年06期
4 张仰森;唐安杰;张泽伟;;面向政治新闻领域的中文文本校对方法研究[J];中文信息学报;2014年06期
5 栗伟;赵大哲;李博;彭新茗;刘积仁;;CRF与规则相结合的医学病历实体识别[J];计算机应用研究;2015年04期
6 来斯惟;徐立恒;陈玉博;刘康;赵军;;基于表示学习的中文分词算法探索[J];中文信息学报;2013年05期
7 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
8 骆卫华,罗振声,宫小瑾;中文文本自动校对技术的研究[J];计算机研究与发展;2004年01期
9 陈笑蓉;秦进;汪维家;陆汝占;;中文文本校对技术的研究与实现[J];计算机科学;2003年11期
10 骆卫华,罗振声,龚小谨;中文文本自动校对的语义级查错研究[J];计算机工程与应用;2003年12期
,本文编号:1261149
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1261149.html