当前位置:主页 > 经济论文 > 房地产论文 >

维吾尔语单文档自动文摘算法研究

发布时间:2019-08-03 20:19
【摘要】:自动文摘技术通过自动选择文档中的代表句子,可以极大提高信息使用的效率。近年来,基于英文和中文的自动文摘技术获得广泛关注并取得长足进展,而对少数民族语言的自动文摘研究还不够充分,例如维吾尔语。 本文首先从维吾尔语网站中下载了588篇文档(属于教育,计算机,军事,房地产,历史,地理等类)建立了文档语料库。在预处理方面,充分考虑维吾尔语语言信息的特点和语法规则,分析了停用词过滤,词干提取,维吾尔语老文字转换维吾尔语新文字等预处理过程对文摘质量的影响。 在自动文摘提取方面,本文使用基于TF-IDF关键词的自动文摘方法,基于TextRank关键词的自动文摘方法,基于LexRank算法的自动文摘方法,基于LexRank和TextRank权重结合的自动文摘方法等四种不同的方法来对维吾尔语单文档进行自动文摘研究。首先构造了一个基于关键词的单文档自动文摘系统。以关键词为主,我们使用了基于TF-IDF和基于TextRank的两种关键词提取算法来提取关键词,进一步实现了包括这些关键词的句子来形成文摘,对文摘质量进行比较。在实验中采用ROUGE的平均值作为评价文档文摘的性能指标。证明在充分考虑到维吾尔语语言信息的前提下,基于TextRank的方法提取出的关键词具有更强的表征性,因此更有利于提高维吾尔语自动文摘系统的性能。第二次我们基于英文的LexRank算法应用于维吾尔语文档,实现了基于LexRank算法的维吾尔语单文档自动文摘系统。同时考虑LexRank和TextRank结合的必要性,比较了基于LexRank算法和LexRank和TextRank权重结合的算法对自动文摘的效果。实验证明,LexRank算法考虑的只是句子和句子之间的信息,不考虑词的信息。因此,使用TextRank权重来也可以考虑词的信息。实验结果表明,基于LexRank和TextRank权重结合的算法效果显著地优于基于LexRank算法和基于关键词的实验结果。证明基于LexRank和TextRank权重结合的方法更适合维吾尔语单文档自动文摘应用。
【图文】:

维吾尔语单文档自动文摘算法研究


新疆大学硕士学位论文20图3.1 原文档图3.2 转换维吾尔新文后的文本3.3.2 停用词的过滤任何语言中都有一些高频词,这些词具有极强的功能性,如完成语法规则,连惯语气和语义等。但这些词却缺乏表征性,不直接反映文章的主题,这些词通常称为停用词(Stop words)。停用词一般分为两类:第一类是弱词性词,,包括助词,连词,副词,量词,代词,数词,叹词等。这第一类词本身没有实际意义,和类别信息一点关系都没有;第二类是在各类文档中都会出现的词汇,这些词均匀分布在各类文档,因则区分类别功能很弱。降低特征空间的维数和减少噪音依靠单词的过滤。对文档摘要任务而言,去掉这些缺少分类能力的停用词可以使那些具有语义表征的词更加突出

维吾尔语单文档自动文摘算法研究


20图3.1 原文档图3.2 转换维吾尔新文后的文本3.3.2 停用词的过滤任何语言中都有一些高频词,这些词具有极强的功能性,如完成语法规则,连惯语气和语义等。但这些词却缺乏表征性,不直接反映文章的主题,这些词通常称为停用词(Stop words)。停用词一般分为两类:第一类是弱词性词,包括助词,连词,副词,量词,代词,数词,叹词等。这第一类词本身没有实际意义,和类别信息一点关系都没有;第二类是在各类文档中都会出现的词汇,这些词均匀分布在各类文档,因则区分类别功能很弱。降低特征空间的维数和减少噪音依靠单词的过滤。对文档摘要任务而言,去掉这些缺少分类能力的停用词可以使那些具有语义表征的词更加突出
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【参考文献】

相关期刊论文 前8条

1 傅间莲;陈群秀;;一种新的自动文摘系统评价方法[J];计算机工程与应用;2006年18期

2 纪文倩;李舟军;巢文涵;陈小明;;一种基于LexRank算法的改进的自动文摘系统[J];计算机科学;2010年05期

3 蒋效宇;;基于关键词抽取的自动文摘算法[J];计算机工程;2012年03期

4 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期

5 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期

6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期

7 张清军,朱才连;基于LBS的中文自动文摘技术研究[J];四川大学学报(工程科学版);2004年04期

8 王珍;维尼拉·木沙江;;基于改进TFIDF的文本特征选择方法[J];现代计算机(专业版);2009年07期

相关博士学位论文 前1条

1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年



本文编号:2522776

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/fangdichanjingjilunwen/2522776.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e0aa9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com