中文文本分词研究
发布时间:2017-05-27 01:08
本文关键词:中文文本分词研究,由笔耕文化传播整理发布。
【摘要】: 中文文本分词问题是中文信息处理的一个重要问题,这个问题解决的好坏将直接影响中文信息处理的发展前景。目前学术界主要采用计算机自动分词解决中文文本分词,但是这种方法不能完全解决分词问题,这是因为计算机自动分词不能彻底地解决歧义字段的切分。那么,,歧义字段倒底有多少,有哪些表现形式,形成的原因又是什么。为了对这个问题有一个充分的认识,我们对计算机的自动分词中的歧义字段做了定量分析,研究了歧义字段的分类和形成原因。 论文分为六个部分: 一、研究背景及问题的提出 中文文本分词在中文信息处理中有重要的作用,中文信息处理必须解决中文文本分词问题。 二、研究现状及存在的问题 目前中文信息处理中利用计算机自动分词解决中文文本分词,虽然取得了一定的成果,但是计算机自动分词存在一个重要的问题就是不能彻底解决歧义字段切分。 三、研究内容和思路 为了全面认识歧义字段的切分问题,我们采用受限语言的研究方法,以《信息交换用汉字编码字符集——基本集》中的3,755个一级字为研究对象,以《信息处理用现代汉语常用词词表》为参考,以典范的现代白话文著作为语法规范,统计分析出歧义字段的数量、表现 形式及形成原因。 四、计算机自动分词中歧义字段的研究 在本部分,利用计算机程序设计,统计分析出《信息交换用汉字 编码字符集一基本集》中的3,755个一级字的构词现状和歧义字段 的数量。对歧义字段的表现形式从构成形式和语法关系上做了分类研 究,并研究了歧义字段的形成原因。 五、中文文本分词解决方法的展望 通过以上的分析研究,我们可以看到,利用计算机自动分词是不 可能完全解决歧义字段的切分问题的。解决分词问题只能另辟溪径, 可以从汉字文本分词连写和按照汉语拼音正词法书写中文文本这两 个角度着手研究分词问题。
【关键词】:中文信息处理 中文文本分词 自动分词 歧义字段
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:H085
【目录】:
- 中文摘要3-5
- 英文摘要5-8
- 引言8-9
- 一、 研究背景及问题的提出9-11
- 二、 研究现状及存在的问题11-13
- 2.1 计算机自动分词解决中文文本分词问题11
- 2.2 计算机自动分词不能彻底解决歧义字段切分11-13
- 三、 研究内容和基本思路13-16
- 四、 计算机自动分词中歧义字段的研究16-29
- 4.1 定量研究16-18
- 4.2 分类研究18-26
- 4.3 形成原因26-28
- 4.4 问题讨论28-29
- 五、 中文文本分词解决方法的展望29-32
- 5.1 汉字文本分词连写解决中文文本分词问题29-31
- 5.2 按照汉语拼音正词法书写解决中文文本分词问题31-32
- 六、 结语32-33
- 七、 注释33-35
- 八、 参考文献35-39
- 后记39
【引证文献】
中国期刊全文数据库 前3条
1 唐明伟;卞艺杰;陶飞飞;;基于语义向量空间模型的文档检索系统研究[J];情报杂志;2010年05期
2 王开扬;;汉语的自动理解与汉语文本的改进[J];术语标准化与信息技术;2006年04期
3 刘忠宝;赵文娟;;个性化搜索引擎中用户兴趣模型的构建方法[J];计算机系统应用;2012年11期
中国硕士学位论文全文数据库 前10条
1 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
2 彭黎文;用户可配置的搜索引擎的设计与实现[D];电子科技大学;2011年
3 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
4 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
5 廖继东;基于DotLucene网站全文搜索系统的实现[D];郑州大学;2007年
6 刘忠宝;个性化搜索引擎的研究与实现[D];北京工商大学;2007年
7 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年
8 李华亮;个性化搜索引擎中兴趣学习方法的研究[D];暨南大学;2008年
9 姜雪;分词连写汉字文本对日韩留学生学习效率影响的量化研究[D];辽宁师范大学;2008年
10 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
本文关键词:中文文本分词研究,由笔耕文化传播整理发布。
本文编号:398511
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/398511.html