当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于字典的藏文分词系统实现研究

发布时间:2019-03-11 07:47
【摘要】:随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。跟日语、汉语、韩语等语种的信息处理相同,藏文自动分词(Tibetan Automatic Word Segmentation)是藏文信息处理中的一项必不可少的基础性工作,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。对于不同应用环境,藏文自动分词需要采用最合适的算法,本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,提出了设计开发基于词典库的藏文自动分词系统,力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。
[Abstract]:With the deepening of the research work on language information processing, Tibetan information processing technology has gradually changed from word information processing to language information processing. Like the information processing of Japanese, Chinese, Korean and other languages, Tibetan automatic word segmentation (Tibetan Automatic Word Segmentation) is an essential basic work in Tibetan information processing. On this basis, we can divide phrases, extract concepts and analyze topics. Even natural language understanding, finally to achieve intelligence. For different application environments, Tibetan automatic word segmentation needs to adopt the most suitable algorithm. Through the statistical analysis of Tibetan language data, the distribution characteristics of Tibetan words and the study of grammatical function, This paper puts forward the design and development of Tibetan automatic word segmentation system based on lexicon database, which aims at the research of Tibetan input method, the construction of Tibetan electronic dictionary, the statistics of Tibetan word frequency, the design and implementation of search engine, and the development of machine translation system. The network information security, the construction of Tibetan corpus and the research of Tibetan semantic analysis lay the foundation.
【作者单位】: 西藏大学藏文信息技术研究中心;西南交通大学信息科学与技术学院;
【基金】:2011年度国家自然科学基金项目“基于群体智能涌现的藏文网络舆情分析及突发事件预警机制研究”(项目编号:61165013)阶段性成果
【分类号】:TP311.52;TP391.1

【参考文献】

相关期刊论文 前5条

1 才智杰;才让卓玛;;藏文自动分词系统的设计[J];计算机工程与科学;2011年05期

2 吴旭东;;正向最大匹配分词算法的分析与改进[J];科技传播;2011年20期

3 关白;;信息处理用藏文分词单位研究[J];中文信息学报;2010年03期

4 向晖;郭一平;王亮;;基于Lucene的中文字典分词模块的设计与实现[J];现代图书情报技术;2006年08期

5 祁坤钰;;基于国际标准编码系统的藏文分词词典机制研究[J];西北民族大学学报(自然科学版);2010年04期

【共引文献】

相关期刊论文 前10条

1 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期

2 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期

3 郭若男;王晶;沈奇威;;基于HBase的实时消息推荐系统[J];电信工程技术与标准化;2014年11期

4 汪涛;;论基于Java的全文检索实现和索引性能提高[J];湖北民族学院学报(自然科学版);2009年01期

5 宋佳;诸云强;刘润达;;一种基于Lucene改进的全文检索工具包[J];计算机工程与应用;2008年04期

6 索红光;孙鑫;;针对中文检索的Lucene改进策略[J];计算机应用与软件;2009年06期

7 姜鑫;余平;;基于Lucene的音视频资源检索系统的研究与实现[J];计算机应用与软件;2011年11期

8 赵旭;王庆桦;;向LUCENE搜索引擎中加入中文同义词查询[J];科技信息;2011年07期

9 张丽媛;;1984—2011年中国自动分词研究综述[J];农业图书情报学刊;2012年06期

10 关白;才科扎西;;现代藏文音节字自动校对研究[J];计算机工程与应用;2012年29期

相关会议论文 前1条

1 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

相关博士学位论文 前2条

1 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年

2 华却才让;基于树到串藏语机器翻译若干关键技术研究[D];陕西师范大学;2014年

相关硕士学位论文 前10条

1 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年

2 习明;基于WEB的社区智能医疗服务系统的研究[D];吉林农业大学;2011年

3 罗会红;基于SSH和Lucene垂直搜索引擎研究[D];长沙理工大学;2011年

4 徐晴;Web数据抽取技术及应用[D];华东理工大学;2012年

5 叶继平;基于Lucene的全文信息检索技术的研究与应用[D];江南大学;2012年

6 刘京会;基于ISG平台的定位服务系统的研究[D];对外经济贸易大学;2007年

7 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年

8 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年

9 宋国柱;基于Agent的个性化信息服务关键技术研究[D];太原理工大学;2007年

10 吴兵华;基于深度网络的信息检索模型研究[D];武汉理工大学;2008年

【二级参考文献】

相关期刊论文 前10条

1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期

2 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期

3 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期

4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期

5 贺胜;曲维光;许超;;面向中文自动分词的可扩展式电子词典研究[J];计算机工程与应用;2008年21期

6 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

7 俞士汶,朱学锋,段慧明;大规模现代汉语标注语料库的加工规范[J];中文信息学报;2000年06期

8 杨文峰,陈光英,李星;基于PATRICIA tree的汉语自动分词词典机制[J];中文信息学报;2001年03期

9 陈玉忠,李保利,俞士汶;藏文自动分词系统的设计与实现[J];中文信息学报;2003年03期

10 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

【相似文献】

相关期刊论文 前10条

1 杜超华;胡金柱;沈威;姚双云;;基于复句语料库分词系统研究[J];计算机与数字工程;2007年05期

2 李小龙;;基于统计的分词系统字典模型研究[J];湖北工业大学学报;2010年05期

3 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期

4 娄s,

本文编号:2438095


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2438095.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b44cc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com