面向新闻领域的蒙古文新事件检测方法研究

发布时间:2024-03-17 19:12
  随着蒙古文网络资源的不断增多,对蒙古文信息进行新事件检测,进而在庞大的信息源中及时掌握最新动态的需求不断增加。然而目前为止在国内外对于蒙古文新事件检测方法的研究仍处于起步阶段,亟需对其进行进一步研究。在蒙古文新闻领域的新事件检测中,优化新闻内容表示和充分利用新闻语料信息是两个核心问题,其方法优劣直接影响着最终的检测结果。本文针对优化蒙古文新闻内容表示和充分利用语料信息这两个核心问题,对蒙古文新闻领域的新事件检测方法展开研究,具体研究内容和创新点如下:首先,针对优化新闻内容表示,本文提出了基于特征词权重优化的向量空间模型的文本表示方法。本文以向量空间模型(Vector Space Model,VSM)为基础,对词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法进行了改进,根据新闻的特点,对新闻标题、首段和每段的首句出现的特征词特殊加权,利用统计方法优化不同新闻类别中不同命名实体特征词的权重系数,根据新事件检测任务特点,使用类频方差优化不同新闻类别中分布情况不同的特征词权重系数。实验结果表明,相比传统的VSM模型,该方法...

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

图2.4LDA模型图

图2.4LDA模型图

面向新闻领域的蒙古文新事件检测方法研究12(4)生成一个单词,~(,);图2.4LDA模型图Figure2.4SchematicdiagramofLDAmodel2.3新闻相似度计算新闻文本相似度的计算是新事件检测过程中的重要一环。当判断两篇新闻文本是否论述同一个话题时,通常使用....


图3.2编码转换后的文档

图3.2编码转换后的文档

内蒙古大学硕士学位论文17图3.2编码转换后的文档Figure3.2Transcodeddocument图3.3对应拉丁文档Figure3.3CorrespondingLatindocument3.2.3文本校对在蒙古文中有很多发音相同形式不同和形式相同发音不同的蒙古文单词,多数....


图3.3对应拉丁文档

图3.3对应拉丁文档

内蒙古大学硕士学位论文17图3.2编码转换后的文档Figure3.2Transcodeddocument图3.3对应拉丁文档Figure3.3CorrespondingLatindocument3.2.3文本校对在蒙古文中有很多发音相同形式不同和形式相同发音不同的蒙古文单词,多数....


图3.4校正完成后的文档Figure3.4Correcteddocument

图3.4校正完成后的文档Figure3.4Correcteddocument

面向新闻领域的蒙古文新事件检测方法研究18图3.4校正完成后的文档Figure3.4Correcteddocument3.3蒙古文新闻语料的标注及后续处理本文对蒙古文新闻语料预处理之后,还需要对其进行标注、去除停用词和切分词缀的后续操作,具体流程如图3.5:编码转换文本校对新闻语....



本文编号:3931503

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3931503.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户51c44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com