基于微博topic摘要的话题跟踪算法
发布时间:2021-03-03 17:10
微博由于其自身的庞大的用户群体、随时随地的参与讨论方式以及随意的表达方式使其信息突显出碎片性以及时效性等特点。因此,用户无法快速地从庞杂的微博信息中获取当前话题的主要内容、成因以及发展结果。为了解决这一问题,本文提出了基于微博topic摘要的话题跟踪算法。该算法主要结合微博文本的特征以及用户的需求对话题跟踪的传统流程(预处理、构建文本模型、相似度分析以及话题漂移检测)分别进行改进。首先提出了基于传统统计量和N元增量算法的新登陆词提取算法使预处理的中文分词更加精确;然后提出了微博topic的构建以及优化算法使文本模型更加详细;最后通过相似度分析实现了微博话题的自适应跟踪以及话题漂移检测。本文主要研究内容如下。(1)提出了基于传统统计量和N元增量算法的新登陆词提取算法,从而弥补仅用传统统计量无法有效地提取新登陆词的缺点。首先通过分析微博文本中词语的左右熵将微博文本中的频繁常用词并入传统的停用词,形成类停用词表。然后,通过改进的统计量在寻找频繁字串的同时过滤文本垃圾串。(2)提出了微博topic摘要的构建以及优化算法。首先通过对词语的TF-IDF值和词信息(词项信息,词间信息)进行统计分析提...
【文章来源】:安徽理工大学安徽省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2-1话题跟踪的基本流程图??Fig.?2-1?Basic?Flow?Chart?for?Topic?Tracking??如图2-1所示,本文提出的话题£艮踪主要分为预处理、构建文本模型、相似度分析以及??
/非负实数赋予召回率权重是赋予准确率权重的,倍。一和不相关文档混杂的情况下,还是要比检索不到相关文档要好一法更侧重于准确率,而把召回率放在一个相对次要的地位,即;^法??主要目的是从测试文本中提取频繁N字串1)。因此,N元过对测试文本进行扫描建立单字索引(索引包括单字,单字频率以个地址信息)。通过将单字词频与阈值相比较,从而判断该单字是索引进行过滤得到频繁单字索引。??据每个频繁单字的地址信息扫描语料将单字向右进行二字扩展,字串进行判断并且过滤得到频繁二字索引。??产生的频繁字串继续向右扩展并过滤,反复迭代,直到出现间隔
图2-3无权图举例??
【参考文献】:
期刊论文
[1]基于扩展规则与统计特征的未登录词识别[J]. 曾浩,詹恩奇,郑建彬,汪阳. 计算机应用研究. 2019(09)
[2]基于子字单元的神经机器翻译未登录词翻译分析[J]. 韩冬,李军辉,熊德意,周国栋. 中文信息学报. 2018(04)
[3]网络热门话题的跟踪建模与检测分析[J]. 李晶. 现代电子技术. 2018(03)
[4]A New Word Clustering Algorithm Based on Word Similarity[J]. YUAN Lichi. Chinese Journal of Electronics. 2017(06)
[5]基于双态模型的微博话题跟踪方法研究[J]. 陈红阳,汪林林,鲁江坤,唐志,王飞雪. 计算机工程与应用. 2017(16)
[6]基于图论的无监督区域遥感图像检索算法研究[J]. 李丽萍,赵传荣,孔德仁,王芳. 计算机科学. 2017(07)
[7]结合节点度和节点聚类系数的链路预测算法[J]. 高杨,张燕平,钱付兰,赵姝. 小型微型计算机系统. 2017(07)
[8]一种融合用户关系的自适应微博话题跟踪方法[J]. 柏文言,张闯,徐克付,张志明. 电子学报. 2017(06)
[9]基于未登录词识别的微博评价短语抽取方法[J]. 汪龙庆,张超,宋晖,刘振宇. 计算机应用与软件. 2017(06)
[10]使用无监督学习改进中文分词[J]. 沈翔翔,李小勇. 小型微型计算机系统. 2017(04)
本文编号:3061621
【文章来源】:安徽理工大学安徽省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2-1话题跟踪的基本流程图??Fig.?2-1?Basic?Flow?Chart?for?Topic?Tracking??如图2-1所示,本文提出的话题£艮踪主要分为预处理、构建文本模型、相似度分析以及??
/非负实数赋予召回率权重是赋予准确率权重的,倍。一和不相关文档混杂的情况下,还是要比检索不到相关文档要好一法更侧重于准确率,而把召回率放在一个相对次要的地位,即;^法??主要目的是从测试文本中提取频繁N字串1)。因此,N元过对测试文本进行扫描建立单字索引(索引包括单字,单字频率以个地址信息)。通过将单字词频与阈值相比较,从而判断该单字是索引进行过滤得到频繁单字索引。??据每个频繁单字的地址信息扫描语料将单字向右进行二字扩展,字串进行判断并且过滤得到频繁二字索引。??产生的频繁字串继续向右扩展并过滤,反复迭代,直到出现间隔
图2-3无权图举例??
【参考文献】:
期刊论文
[1]基于扩展规则与统计特征的未登录词识别[J]. 曾浩,詹恩奇,郑建彬,汪阳. 计算机应用研究. 2019(09)
[2]基于子字单元的神经机器翻译未登录词翻译分析[J]. 韩冬,李军辉,熊德意,周国栋. 中文信息学报. 2018(04)
[3]网络热门话题的跟踪建模与检测分析[J]. 李晶. 现代电子技术. 2018(03)
[4]A New Word Clustering Algorithm Based on Word Similarity[J]. YUAN Lichi. Chinese Journal of Electronics. 2017(06)
[5]基于双态模型的微博话题跟踪方法研究[J]. 陈红阳,汪林林,鲁江坤,唐志,王飞雪. 计算机工程与应用. 2017(16)
[6]基于图论的无监督区域遥感图像检索算法研究[J]. 李丽萍,赵传荣,孔德仁,王芳. 计算机科学. 2017(07)
[7]结合节点度和节点聚类系数的链路预测算法[J]. 高杨,张燕平,钱付兰,赵姝. 小型微型计算机系统. 2017(07)
[8]一种融合用户关系的自适应微博话题跟踪方法[J]. 柏文言,张闯,徐克付,张志明. 电子学报. 2017(06)
[9]基于未登录词识别的微博评价短语抽取方法[J]. 汪龙庆,张超,宋晖,刘振宇. 计算机应用与软件. 2017(06)
[10]使用无监督学习改进中文分词[J]. 沈翔翔,李小勇. 小型微型计算机系统. 2017(04)
本文编号:3061621
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3061621.html