当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语料库的字母词语自动提取研究

发布时间:2018-07-24 18:48
【摘要】:目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。
[Abstract]:At present, many new terms and proper nouns appear in Chinese in the form of alphabetical words, and are increasingly widely used. The letter words are mostly unrecorded words in Chinese automatic participle, and their correct recognition will help to improve the quality of Chinese word segmentation, information retrieval, search engine, machine translation and other application software. On the basis of a preliminary investigation of alphabetic words, this paper analyzes the complex features of the composition of alphabetic words and the difficulties of automatic recognition. Combined with various statistical features of alphabetic words and their unique characteristics, an algorithm for automatic extraction of alphabetic words by extending the rules from the center to the two sides and adding statistical assistance is proposed. It also deals with the problem of bilingual cooccurrence of alphabetic words. The algorithm is simple but effective. The recall rate is 100% and the accuracy is over 80%.
【作者单位】: 太原师范学院计算机系 北京语言大学DCC博士研究室 北京语言大学DCC博士研究室
【基金】:“国家语言资源监测与研究中心”项目资助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前4条

1 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期

2 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期

3 孙茂松,黄昌宁,,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期

4 刘涌泉;关于汉语字母词的问题[J];语言文字应用;2002年01期

【共引文献】

相关期刊论文 前10条

1 原新梅;字母词语的表达功效[J];修辞学习;2002年06期

2 原新梅;;字母词的收入与注音问题[J];辞书研究;2005年04期

3 余桂林;;关于字母词的几个问题——兼评两本字母词词典[J];辞书研究;2006年03期

4 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];当代语言学;1996年04期

5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

6 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期

7 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期

8 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期

9 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期

10 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期

相关会议论文 前3条

1 马玉霞;黄德根;杨元生;;一种改进的中文姓名识别方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

2 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

3 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

相关博士学位论文 前10条

1 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年

2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年

3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年

4 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年

5 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年

6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年

7 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年

8 李彦洁;现代汉语外来词发展研究[D];山东大学;2006年

9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

10 周启强;英汉构词法的认知研究[D];湖南师范大学;2007年

相关硕士学位论文 前10条

1 袁园;1990-2002年间的经济类新词透析[D];南京师范大学;2006年

2 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年

3 朱s

本文编号:2142308


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2142308.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7dd94***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com