微博热点话题发现与话题演化的研究
发布时间:2019-10-11 07:49
【摘要】:近年来,由于网络技术的广泛普及与迅猛发展,网络上信息的传播速度与网络中信息量的规模空前巨大。作为一种新兴的社会网络媒体,微博已逐步成为人们获取信息的重要来源。由于微博发布的内容很简短,并且可以在各种终端上发布微博信息,造成了在微博平台上短时间内会产生大量微博数据。如果仅仅通过人工来处理微博上这些数量巨大且杂乱无章的信息内容,不仅会大大增加工作量,而且很难为用户提供及时、准确又感兴趣的微博信息。微博热点话题发现技术就是一项能够针对微博中的海量信息进行处理、分析的技术,能及时将用户最感兴趣的信息展现给用户。 传统的热点话题发现技术使用最广泛的方法是基于空间向量模型,该方法在话题发现领域取得了很好的效果,但是在处理微博这样内容杂乱且文本短小的信息时,还存在不足。在聚类算法中计算词相似度的时候仅仅考虑了词的语义相似度,并没有考虑那些虽然在语义上不相似,但同时出现的频率很高的词(本文称为上下文式相似度)。本文借鉴传统的热点话题发现方法,针对微博的本身特性,提出一种基于综合相似度的热点话题发现算法。在真实微博数据中进行的实验表明,该方法能较有效的发现微博中的热点话题。 其次,本文从话题模型的角度对微博话题的发现展开了研究。通过将传统的LDA(LatentDirichletAllocation)模型扩展到适合微博的MLDA(MicroblogLatentDirichletAllocation)模型。MLDA模型是将微博作者之间的关系、话题标签、微博文本之间的关联关系扩展到LDA模型中的。运用GibbsSampling算法进行参数估计,获取文档-话题和话题-词的分布。 最后,论文分析了微博话题的演化。根据MLDA模型发现出微博的话题,从话题强度和话题内容迁移两个方面分析微博话题的演化。实验证明该方法能有效抽取微博话题,从而能够很好描述微博话题的演化历程。根据以上研究的成果,本文还在真实的微博数据上进行实验,通过实验,验证了上述工作的有效性。
【图文】:
象 的 概 念, 是 描 述 一个 事 件 的 一方 面 , 它 是 通过 一 系列 词 语 来表 现 的 。 例 如 假文 档中 谈 及的 话 题 主要 是 “微 软” ,那 么 “比 尔 盖 茨 ”、“操 作 系统 ”等 这 些词 语 篇 文档 中 出现 的 概 率也 会 很高 ,同 样 ,, 如 果这 个 话 题 为“ 小 米 ”,那 么 “ 雷军 ” 、手 机” 这 些词 出 现 在这 篇 文 档 中的 概 率 也会 很 高 。但 在 “ 小 米 ”这 个 话 题 中, 比 尔盖 茨 ”等这 些 词 的概 率 就 比 较低 。 形 式化 来 描 述 下, 话题 就 是词 上 的 条 件概 已 知一 个 词的 前 提 下, 另 外 一 个词 出 现 的概 率 。这 个条 件 概 率 越大 , 说 明 这个 题 的关 系 越密 切 。 相反 , 如 果 这个 条 件 概率 越 小 , 则它 们 之 间的 相 关 性 就不 强 : p (比 尔 盖茨 |微 软)=0.2p(比 尔盖 茨|小 米)=0.00 00 0 1p ( 操 作 系统 |微软 )=0.1 5p( 操 作 系 统|小米 )=0.0 0 0 0 1p (雷 军 |微软 )=0.0 0 00 0 1 p(雷 军 |小 米)=0.2形象 地 来 说, 一 个 话 题就 好 像 一个 “桶 ”,每 个 “ 桶” 里 面 装着 很 多 词 ,这 些 在 这个 “ 桶” 出 现 后, 经 常 出 现在 这 个 “桶 ” 里面 的词 , 也 就 是说 “ 桶 ” 和“ 面 的词 的 相关 性 很 强。 对 于 整 个文 件 集 中, 有 些词 往往 对 应 的 不是 一 个 桶 ,而 对 应 多 个桶 。 例 如图 2. 4 所示 。
对微 博 文 本进 行 预 处 理, 主 要 有过 滤 停 用词 和 词 法 分析 两 大 步骤 , 而 词 法分 析 要 含有 分 词、 标 注 词性 以 及 识 别新 词 这 几项 内 容 。 针 对 话题 发 现的 研 究 工 作, 美 语 言 联 合会 提 供 了 一些 处 理 好 的语 料 , 这 些 语料 都 是分 好 词 了, 并 且标 注好 了 词 , 然 而, 针 对 于 内 容杂 乱 的 微 博上 进 行 话题 发 现展 开的 研 究, 同 样 也 需 要 在文 本 行 分析 词 法、 分 词 等步 骤 。 这 些步 骤 是 将文 本 表示 成向 量 模 型 的先 决 条 件 。在 中 词 技术 上 ,国 内 的 很多 学 者 已 经研 究 了 很多 年 ,并 且取 得 了 一 些好 的 成 果 ,使 得 对 中文 分 词的 技 术 的研 究 已 经 趋于 成 熟 。目 前 ,对 中文 的 分 词 方法 大 概 分 为以 下 : 统计 分词 方 法 [ 50 ]、对 词 典进 行 分词 的 方法 、 组合 分 词 方法 、 理解 分 词算 法 [ 51 ]。 采 用 的 分 词 工 具 是 汉 语 词 法 分 析 系 统 IC T CL AS ( In s ti t ut e of C om pu t e c h no l og y C hi n es e L ex i ca l A na l ys i s Sy s t em ) , IC T CL A S 系 统 主 要 由 中 科 院 研[ 52 ],是 在 层 叠隐 马 尔 可 夫模 型 的 基础 上 实 现的 , 根 据 这个 模 型 对中 文 的 词 进行 词 析 , 这 其 中分 析 的内 容主 要 是标 注的 词 性、 分 词 、 识 别 新词 等 ,I CT C LA S 系统 不 词速 度 很快 , 分词 的 准确 率 也高 , 可以 达 到 98 . 45 % [ 40 ]。 下图 是 对一 个 普通 的 微文 本进 行 分词 分 析 示 例, 如 图 3 .2 所示 。
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
本文编号:2547381
【图文】:
象 的 概 念, 是 描 述 一个 事 件 的 一方 面 , 它 是 通过 一 系列 词 语 来表 现 的 。 例 如 假文 档中 谈 及的 话 题 主要 是 “微 软” ,那 么 “比 尔 盖 茨 ”、“操 作 系统 ”等 这 些词 语 篇 文档 中 出现 的 概 率也 会 很高 ,同 样 ,, 如 果这 个 话 题 为“ 小 米 ”,那 么 “ 雷军 ” 、手 机” 这 些词 出 现 在这 篇 文 档 中的 概 率 也会 很 高 。但 在 “ 小 米 ”这 个 话 题 中, 比 尔盖 茨 ”等这 些 词 的概 率 就 比 较低 。 形 式化 来 描 述 下, 话题 就 是词 上 的 条 件概 已 知一 个 词的 前 提 下, 另 外 一 个词 出 现 的概 率 。这 个条 件 概 率 越大 , 说 明 这个 题 的关 系 越密 切 。 相反 , 如 果 这个 条 件 概率 越 小 , 则它 们 之 间的 相 关 性 就不 强 : p (比 尔 盖茨 |微 软)=0.2p(比 尔盖 茨|小 米)=0.00 00 0 1p ( 操 作 系统 |微软 )=0.1 5p( 操 作 系 统|小米 )=0.0 0 0 0 1p (雷 军 |微软 )=0.0 0 00 0 1 p(雷 军 |小 米)=0.2形象 地 来 说, 一 个 话 题就 好 像 一个 “桶 ”,每 个 “ 桶” 里 面 装着 很 多 词 ,这 些 在 这个 “ 桶” 出 现 后, 经 常 出 现在 这 个 “桶 ” 里面 的词 , 也 就 是说 “ 桶 ” 和“ 面 的词 的 相关 性 很 强。 对 于 整 个文 件 集 中, 有 些词 往往 对 应 的 不是 一 个 桶 ,而 对 应 多 个桶 。 例 如图 2. 4 所示 。
对微 博 文 本进 行 预 处 理, 主 要 有过 滤 停 用词 和 词 法 分析 两 大 步骤 , 而 词 法分 析 要 含有 分 词、 标 注 词性 以 及 识 别新 词 这 几项 内 容 。 针 对 话题 发 现的 研 究 工 作, 美 语 言 联 合会 提 供 了 一些 处 理 好 的语 料 , 这 些 语料 都 是分 好 词 了, 并 且标 注好 了 词 , 然 而, 针 对 于 内 容杂 乱 的 微 博上 进 行 话题 发 现展 开的 研 究, 同 样 也 需 要 在文 本 行 分析 词 法、 分 词 等步 骤 。 这 些步 骤 是 将文 本 表示 成向 量 模 型 的先 决 条 件 。在 中 词 技术 上 ,国 内 的 很多 学 者 已 经研 究 了 很多 年 ,并 且取 得 了 一 些好 的 成 果 ,使 得 对 中文 分 词的 技 术 的研 究 已 经 趋于 成 熟 。目 前 ,对 中文 的 分 词 方法 大 概 分 为以 下 : 统计 分词 方 法 [ 50 ]、对 词 典进 行 分词 的 方法 、 组合 分 词 方法 、 理解 分 词算 法 [ 51 ]。 采 用 的 分 词 工 具 是 汉 语 词 法 分 析 系 统 IC T CL AS ( In s ti t ut e of C om pu t e c h no l og y C hi n es e L ex i ca l A na l ys i s Sy s t em ) , IC T CL A S 系 统 主 要 由 中 科 院 研[ 52 ],是 在 层 叠隐 马 尔 可 夫模 型 的 基础 上 实 现的 , 根 据 这个 模 型 对中 文 的 词 进行 词 析 , 这 其 中分 析 的内 容主 要 是标 注的 词 性、 分 词 、 识 别 新词 等 ,I CT C LA S 系统 不 词速 度 很快 , 分词 的 准确 率 也高 , 可以 达 到 98 . 45 % [ 40 ]。 下图 是 对一 个 普通 的 微文 本进 行 分词 分 析 示 例, 如 图 3 .2 所示 。
【学位授予单位】:桂林电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 袁伯秋;周一民;李林;;LDA模型参数有偏估计方法[J];小型微型计算机系统;2010年04期
2 唐晓波;向坤;;基于LDA模型和微博热度的热点挖掘[J];图书情报工作;2014年05期
3 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
4 王嘉琦;徐朝军;李艺;;基于LDA模型的社交网站自动量化评价研究[J];现代图书情报技术;2013年03期
5 楚克明;李芳;;基于LDA模型的新闻话题的演化[J];计算机应用与软件;2011年04期
6 石大文;张晖;;基于LDA模型的BBS话题演化[J];工业控制计算机;2012年05期
7 孙世杰;濮建忠;;基于LDA模型的Twitter中文微博热点主题词组发现[J];洛阳师范学院学报;2012年11期
8 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
9 李保利;杨星;;基于LDA模型和话题过滤的研究主题演化分析[J];小型微型计算机系统;2012年12期
10 ;[J];;年期
相关会议论文 前1条
1 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年
相关硕士学位论文 前2条
1 张田田;基于LDA模型的实体解析技术的研究与实现[D];北京邮电大学;2013年
2 彭利斌;微博热点话题发现与话题演化的研究[D];桂林电子科技大学;2014年
本文编号:2547381
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2547381.html