基于统一模型的藏文新闻摘要生成研究

发布时间:2023-04-07 00:49
  随着互联网时代的发展,网页上的信息呈爆炸式的增长,文本摘要技术可以帮助人们从大量的新闻中提炼出文章主旨,过滤冗余信息,加快了人们阅读的速度与质量,节约人们的时间。文本摘要是当前自然语言处理领域的一个研究热点,逐渐得到越来越多研究人员的关注。文本摘要大致可以分为抽取式摘要与理解式摘要,前者抽取出能表示原文主旨的关键句子作为摘要;后者通过提取原文的语义信息,对原文进行改写,进而生成摘要,也是文本摘要的终极目标。目前对于摘要的研究工作主要集中于中、英文领域,而低资源语言如藏文领域,生成摘要与评测摘要的方法都还比较落后,而且语料规模较小,主要通过无监督的方式对人工收集到的一定规模的语料进行摘要抽取,评测方式主要是人为评测,没有标准的评测指标。此外,在中、英文生成式摘要领域效果较好的序列到序列模型没有应用到藏文领域。本文针对藏文新闻摘要进行了研究与分析,主要内容与创新点如下:(1)针对目前藏文缺乏大规模训练语料、评测方式不规范等问题,本文通过爬取5万条藏文新闻作为训练语料,将标题作为生成摘要的参考。而且,本文将传统抽取式摘要方法与理解式摘要方法结合应用在藏文上,并采用目前文本摘要评测标准ROUG...

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究进展
        1.2.1 抽取式摘要进展
        1.2.2 理解式摘要进展
        1.2.3 藏文文本摘要进展
    1.3 本文主要工作与文章架构
        1.3.1 本文主要工作
        1.3.2 文章架构
第二章 语料预处理
    2.1 数据集构建
        2.1.1 语料来源
        2.1.2 数据处理过程
    2.2 词的向量表示
        2.2.1 词的独热表示
        2.2.2 词的分布式表示
    2.3 关键词与关键句抽取
        2.3.1 基于TF-IDF方法
        2.3.2 基于改进TextRank的方法
    2.4 实验结果
        2.4.1 评测指标
        2.4.2 结果分析
        2.4.3 案例分析
    2.5 本章小结
第三章 基于神经网络的句子选取
    3.1 循环神经网络
        3.1.1 RNN
        3.1.2 LSTM
        3.1.3 GRU
    3.2 基于BiGRU的句子选取
    3.3 实验结果
        3.3.1 参数设置
        3.3.2 评测指标
        3.3.3 结果分析
        3.3.4 案例分析
    3.4 本章小结
第四章 基于统一模型的藏文摘要生成
    4.1 Seq2Seq+Attention
    4.2 指针机制
    4.3 覆盖机制
    4.4 Beam Search
    4.5 实验结果及分析
        4.5.1 参数设置
        4.5.2 结果分析
        4.5.3 案例分析
    4.6 本章小结
第五章 总结与展望
参考文献
致谢
攻读学位期间发表的学术论文目录



本文编号:3784750

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3784750.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户721c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com