吕苏语口语标注语料的自动分词方法研究
本文选题:吕苏语 + 汉语标注语料 ; 参考:《计算机应用研究》2017年05期
【摘要】:濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。
[Abstract]:The purpose of the endangered language collection is to save and preserve for a long time the acoustic, linguistic, literary, historical, traditional and other connotations contained in the spoken language of the endangered language. Lu Su, as an endangered language without written documentation, It is of great significance to the collection of oral data. The automatic segmentation of Chinese tagged corpus in Lu Su's spoken language is the basic work for the establishment of a high quality spoken corpus of Luthu and the collection system of Luthu. At present, the research on the tagging corpus segmentation of Lusu is almost zero. This paper analyzes the characteristics of Lusu, and applies the method of Chinese automatic segmentation and stutter to the Chinese tagging corpus of Lusu. In order to solve the problem of incorrect segmentation of Lusu tagged corpus, an improved algorithm of stutter is put forward. The experimental results show that the improved segmentation method is more accurate and improves the segmentation effect of Chinese tagging corpus in Luthu language.
【作者单位】: 北京工商大学计算机与信息工程学院;中国社会科学院民族学与人类学研究所;
【基金】:国家社会科学基金重大资助项目(14ZDB156) 国家教育部人文社会科学研究规划基金资助项目(15YJCZH224)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前9条
1 尹蔚彬;;从拉坞戎语看濒危语言的特点[J];西北民族大学学报(哲学社会科学版);2016年02期
2 陶伟;;警务应用中基于双向最大匹配法的中文分词算法实现[J];电子技术与软件工程;2016年04期
3 尹蔚彬;;四川省藏区语言生态研究及价值[J];中国藏学;2016年01期
4 马宁;李亚超;何向真;于洪志;;一种实用的资源稀缺条件下的分词方法[J];计算机应用研究;2016年01期
5 胡发刚;谢军;;基于文本挖掘的电商企业评论打分机制有效性验证[J];吉林工商学院学报;2015年03期
6 徐世璇;;我国濒危语言研究的历程和前景[J];西北民族大学学报(哲学社会科学版);2015年01期
7 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期
8 陈明华;殷景华;舒昌;王明江;;基于正反向最大匹配分词系统的实现[J];信息技术;2009年06期
9 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
【共引文献】
相关期刊论文 前10条
1 许宇华;黄倩云;;统一智能搜索处理技术的研究与应用[J];自动化与仪器仪表;2017年05期
2 刘锴锋;王红军;左云波;;基于本体及Web文本的数控机床知识获取[J];电子测量与仪器学报;2017年04期
3 于清;陈永杰;丁岩;;适用于医疗卫生领域的中文分词方法研究[J];新疆师范大学学报(自然科学版);2017年01期
4 吴春燕;黄巧梅;刘海清;张捷;;文本主要信息的自动获取和主体挖掘[J];信息技术与信息化;2017年03期
5 徐懿彬;;基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法[J];电子科技大学学报;2017年02期
6 孔雪娜;孙红;;中文微博文本采集与预处理综述[J];软件导刊;2017年02期
7 刘菖;;标准全文检索系统及关键技术研究[J];标准科学;2017年01期
8 郑伟;;大数据对财务分析工作的影响和对策[J];财会学习;2017年02期
9 张昭楠;马亚蕾;;基于SQL Server的中文分词系统设计及应用[J];电子设计工程;2016年17期
10 于重重;操镭;尹蔚彬;张泽宇;郑雅;;吕苏语口语标注语料的自动分词方法研究[J];计算机应用研究;2017年05期
【二级参考文献】
相关期刊论文 前10条
1 张孝飞;;藏语网络语言生活调查分析与思考[J];西藏民族学院学报(哲学社会科学版);2013年06期
2 陈文娟;吕贵金;江静;陈新一;;藏文网络社区内话题演变的研究[J];西北民族大学学报(自然科学版);2013年03期
3 邓竞伟;邓凯英;李永生;李应兴;;基于藏文网络的舆情传播模型[J];计算机系统应用;2013年03期
4 梅绍祖;;中美韩电子商务发展现状分析研究[J];办公自动化;2011年13期
5 马梦玲;;青海境内语言研究的语言生态学意义[J];青海师范大学学报(哲学社会科学版);2011年03期
6 范俊军;;少数民族濒危语言有声语档建设三论[J];北方民族大学学报(哲学社会科学版);2011年03期
7 范俊军;;少数民族濒危语言有声语档建设初探[J];中央民族大学学报(哲学社会科学版);2011年01期
8 范俊军;;少数民族濒危语言有声语档建设再论——OLAC技术规范及其适应性[J];西北民族大学学报(哲学社会科学版);2010年06期
9 李实;叶强;李一军;罗嗣卿;;挖掘中文网络客户评论的产品特征及情感倾向[J];计算机应用研究;2010年08期
10 姚继伟;赵东范;;基于短语匹配的中文分词消歧方法[J];吉林大学学报(理学版);2010年03期
【相似文献】
相关期刊论文 前10条
1 张大方,戴明坚;多遍扫描联想自动分词系统[J];微电子学与计算机;1991年03期
2 张琪玉;;自动抽词与自动分词[J];图书馆杂志;2002年03期
3 陈斌;;基于数学设计的计算机自动分词算法[J];江西科学;2009年05期
4 王成平;;彝文自动分词系统的设计与实现[J];中国西部科技;2012年03期
5 苏惠明;;自动分词模型中的歧义字段消除探讨[J];价值工程;2012年09期
6 王成平;金骋;;基于既定词表的彝文自动分词技术研究[J];科学技术与工程;2012年10期
7 王成平;;计算机彝文自动分词技术的设计研究[J];湘潭大学自然科学学报;2012年03期
8 江孝感,徐罗丁,李长宁;汉语词素自动分词的一个理想方法[J];现代图书情报技术;1989年02期
9 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
10 杨长生,潘凌云;基于知识的汉语拼音自动分词[J];浙江大学学报(自然科学版);1992年02期
相关会议论文 前7条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 刘怀t,
本文编号:1923186
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1923186.html