当前位置:主页 > 科技论文 > 软件论文 >

基于词间关联度度量的维吾尔文本自动切分方法

发布时间:2017-09-08 03:39

  本文关键词:基于词间关联度度量的维吾尔文本自动切分方法


  更多相关文章: 语义串 互信息 t-测试差 邻接对熵 单词结合规则


【摘要】:提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。
【作者单位】: 新疆大学信息科学与工程学院;
【关键词】语义串 互信息 t-测试差 邻接对熵 单词结合规则
【基金】:国家自然科学基金(61262062;61163033;61262063;61562083) 新疆维吾尔自治区高校科研计划重点项目(XJEDU2012I11)资助
【分类号】:TP391.1
【正文快照】: 文本切分是自然语言处理中的第一步,也是关键的一步。采取何种方法及切分难易程度,在不同语言环境下有所不同,但最终目的是一样的,即从文本中获取能表达具体、完整语义的语言单元的集合。这些语言单元在很多情况下是突破词语概念界限的语义串[1 2],是文本中上下文任意多个连

【参考文献】

中国期刊全文数据库 前1条

1 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接变化数方法在中文分词中的应用[J];中文信息学报;2010年01期

【共引文献】

中国期刊全文数据库 前3条

1 索娟娟;于宝英;;基于灰熵的汉语机器翻译消歧研究[J];科技信息;2012年03期

2 吐尔地·托合提;艾克白尔·帕塔尔;艾斯卡尔·艾木都拉;;维吾尔文无监督自动切分及无监督特征选择[J];模式识别与人工智能;2013年09期

3 周超;严馨;余正涛;洪旭东;线岩团;;融合词频特性及邻接变化数的微博新词识别[J];山东大学学报(理学版);2015年03期

【相似文献】

中国期刊全文数据库 前10条

1 陈锴,柴佩琪;提高英语语音语料库自动切分准确性的方法[J];微电子学与计算机;2004年05期

2 王启祥,王锡江,陈未竞;日汉机器翻译中词的自动切分技术[J];中文信息学报;1988年03期

3 施建军;机器单词词典和日语单词的自动切分[J];外语电化教学;1994年04期

4 谢金宝,孙介铭;机器翻译中的段、句、字自动切分技术[J];计算机工程与设计;1987年06期

5 祝瑶卿,柴佩琪;基于HMM连接语音自动切分中的初始化模型研究[J];微型电脑应用;2003年07期

6 王丽娟;曹志刚;;TTS语音单元边界的自动切分[J];微电子学与计算机;2005年12期

7 张金溪;李永宏;单广荣;李照耀;江静;;面向语音合成的藏语单音素与三音素自动切分算法研究[J];计算机应用研究;2013年11期

8 刘映杰,马义德,刘悦,袁敏,段磊;连续汉语音流中声韵母切分研究[J];甘肃科学学报;2005年03期

9 陈锴,柴佩琪;基于HMM的中文语音自动切分中的静音添加[J];计算机工程;2004年09期

10 姚徐;于洪志;单广荣;;音段自动切分系统的设计与实现[J];电脑知识与技术;2008年13期

中国重要会议论文全文数据库 前6条

1 肖镜辉;刘秉权;;粤拼序列自动切分算法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

2 杜嘉;曹振海;祖漪清;;不定长语音单元在语音自动切分中的运用[A];第九届全国人机语音通讯学术会议论文集[C];2007年

3 那顺乌日图;雪艳;叶嘉明;;现代蒙古语语料库加工技术的新进展——新一代蒙古语词语自动切分与标注系(Darhan Tagging System)[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

4 陈韬;李昌立;莫福源;;汉语声/韵母自动切分方法的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年

5 邰晓英;小田裕树;北研二;;基于字符N元语法模型的单词自动切分[A];第十五届全国数据库学术会议论文集[C];1998年

6 李小明;易立夫;杨静;孙金城;;一种新的针对汉语TTS的韵律词自动切分方法[A];第一届学生计算语言学研讨会论文集[C];2002年

中国博士学位论文全文数据库 前1条

1 许中卫;基于双向搜索的ILP算法构建汉语语义自动切分系统[D];安徽大学;2006年

中国硕士学位论文全文数据库 前2条

1 杜守栓;方言口音普通话语音自动切分算法研究[D];中国科学院研究生院(计算技术研究所);2006年

2 袁晓亮;汉语语音合成中自动切分技术的研究[D];北京邮电大学;2007年



本文编号:811667

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/811667.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4ef1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com