当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于频繁词集词共现网络的短文本聚类方法

发布时间:2017-06-13 10:09

  本文关键词:基于频繁词集词共现网络的短文本聚类方法,,由笔耕文化传播整理发布。


【摘要】:Web2.0的诞生和发展使互联网上的内容发生了巨大的变化。在Web1.0时代,互联网以静态网页为主,静态网页中的内容大都是长的、规范性的文本。到了Web2.0时代,动态网页技术高速发展,互联网上产生了微博、问答社区、论坛、以及即时通信软件等一大批应用。在这些应用平台上内容大都是以短文本为主,短文本具有简单、碎片化的特点。与长文本相比,这类短小、精悍的文本更容易在互联网上传播,因为它易于编辑、方便阅读,更加适合当今社会快节奏的生活。随着互联网上短文本数量的急剧增长,如何从这些海量的短文本中挖掘出有用的信息成为了一个热门的研究领域。文本挖掘技术是数据挖掘和机器学习的传统研究领域之一,经过多年的研究和发展已经积累了一大批优秀的理论和成果。但传统的文本挖掘方法都以长文本为处理对象,短文本和长文本相比存在严重的数据稀疏问题。并且短文本大都存在用词和语法不规范的问题,例如:微博平台上的短文本使用了大量的网络用语,而且拼写错误和错别字比较明显。这使得已有的、成熟的长文本处理技巧和方法,在短文本上表现的差强人意。短文本挖掘需要根据短文本自身的特点,设计适合短文本自身特性的挖掘方法。针对短文本的数据稀疏和用语不规范的特点,本文提出了一种基于频繁词集共现网络的短文本聚类算法。该方法首先挖掘语料中存在的词的K频繁项集(K=3),然后,基于挖掘出的频繁词集构建频繁词共现网络FWN(Frequent Words co-occurrence Network,如果两个词同时处于同一个频繁词集内则认为这两个词之间存在一条边)。由于在FWN网络中,话题以社区的形式存在,即同一个话题的特征词紧密联系,形成一个话题社区(一个话题社区可以看做是一个话题的特征词的集合),我们在构建好的FWN网络上使用复杂网络社区发现算法识别FWN网络中的话题社区。最后我们以话题的特征词作为话题的类原型,使用基于最大相似性指派的单遍聚类算法实现对短文本的快速聚类。在微博短文本数据集上的实验结果显示,我们给出的方法可以快速地找到微博短文本中的热点话题,并且不需要事先指定话题的数目K。另外,我们的方法除了可以对微博短文本进行聚类外,还可以用于对搜索引擎中的搜索结果进行聚类,以便于对搜索结果进行二次整理和分主题展现。我们开发了一个百度新闻搜索结果聚类原型系统,该系统可以较好地展现出查询词检索结果上的类结构,为查询多样性和查询消歧给出了解决思路。
【关键词】:短文本聚类 FWN网络 文本挖掘 复杂网络 社区发现 聚类
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O157.5;TP391.1
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 引言11-16
  • 1.1 研究背景11-13
  • 1.2 研究意义13-14
  • 1.3 研究现状14-15
  • 1.4 本文主要研究内容15-16
  • 2 文本聚类相关技术16-27
  • 2.1 数据预处理16-20
  • 2.1.1 中文分词17-18
  • 2.1.2 去停用词18
  • 2.1.3 短文本数据18-20
  • 2.2 文本建模20-22
  • 2.2.1 布尔模型20-21
  • 2.2.2 向量空间模型21
  • 2.2.3 概率模型21-22
  • 2.3 文本相似度计算22-23
  • 2.4 传统聚类方法23-26
  • 2.4.1 基于划分的方法23-24
  • 2.4.2 基于层次的方法24-25
  • 2.4.3 基于密度的方法25-26
  • 2.4.4 谱聚类方法26
  • 2.5 本章小结26-27
  • 3 基于频繁词集词共现网络的短文本聚类算法27-45
  • 3.1 算法思想27
  • 3.2 相关知识27-30
  • 3.2.1 社区发现27-28
  • 3.2.2 频繁项集挖掘28-30
  • 3.3 频繁词集词共现网络30-31
  • 3.3.1 频繁词集30
  • 3.3.2 频繁词集词共现网络30-31
  • 3.4 基于频繁词集词共现网络的短文本聚类算法31-37
  • 3.5 FWN算法实验与分析37-38
  • 3.5.1 实验环境37
  • 3.5.2 实验数据37
  • 3.5.3 实验评价指标37-38
  • 3.5.4 实验结果及分析38
  • 3.6 微博话题发现应用38-44
  • 3.6.1 相关背景38-39
  • 3.6.2 微博数据预处理39-40
  • 3.6.3 微博话题发现实验40-44
  • 3.7 本章小结44-45
  • 4 搜索结果聚类45-57
  • 4.1 背景意义45-46
  • 4.2 相关工作46
  • 4.3 搜索结果聚类实验46-49
  • 4.3.1 实验数据46-47
  • 4.3.2 实验与对照47-48
  • 4.3.3 实验结果分析48-49
  • 4.4 百度新闻搜索结果聚类系统49-53
  • 4.4.1 数据获取模块50-51
  • 4.4.2 数据预处理模块51-52
  • 4.4.3 FWN短文本聚类52-53
  • 4.5 百度新闻搜索结果聚类系统53-56
  • 4.5.1 系统架构53
  • 4.5.2 系统开发环境53-54
  • 4.5.3 系统界面54-56
  • 4.6 本章小结56-57
  • 5 结论57-59
  • 5.1 本文总结57-58
  • 5.2 存在问题以及工作展望58-59
  • 参考文献59-62
  • 作者简历及攻读硕士学位期间取得的研究成果62-64
  • 学位论文数据集64

【相似文献】

中国期刊全文数据库 前10条

1 周扬;屈武斌;卢一鸣;张成岗;杨毅;;基于文本频谱的中文文本聚类方法[J];四川大学学报(自然科学版);2012年06期

2 褚蕾蕾;常文波;李秦;;文本聚类中的改进特征权重算法[J];工程数学学报;2012年04期

3 李少博;邸书灵;范通让;;利用本体技术的文本聚类模型[J];河北省科学院学报;2014年02期

4 朱会峰;左万利;赫枫龄;彭涛;纪文彦;;一种基于本体的文本聚类方法[J];吉林大学学报(理学版);2010年02期

5 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期

6 林明才;康耀红;钟声;张诚;;文本聚类技术在科研立项管理中的应用[J];科技管理研究;2009年10期

7 卢志茂;徐森;刘远超;顾国昌;;使用“分裂-合并"策略改进文本聚类集成算法的研究[J];高技术通讯;2010年07期

8 邱志宇;安艳辉;;基于文本聚类的LSI文本分类模型[J];河北师范大学学报(自然科学版);2012年01期

9 何祥;骆祥峰;;基于关联语义链网络的文本聚类方法[J];上海大学学报(自然科学版);2014年02期

10 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期

中国重要会议论文全文数据库 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

中国博士学位论文全文数据库 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

中国硕士学位论文全文数据库 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年


  本文关键词:基于频繁词集词共现网络的短文本聚类方法,由笔耕文化传播整理发布。



本文编号:446304

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/446304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d3d8c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com