微博文本聚类中特征扩展策略研究
本文选题:微博文本 切入点:高维稀疏 出处:《计算机工程与应用》2017年13期 论文类型:期刊论文
【摘要】:针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法。实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高。
[Abstract]:Aiming at the high dimension and sparse character of Weibo's text, this paper compares the text expansion strategy based on the external knowledge base such as synonym forest, uses Word2vec to train Weibo corpus, and constructs a lexical list of Weibo context-related words. By using seed vocabulary and Weibo tagging information to extend the keywords in Weibo text stream, a method of extracting similar words and related words in Weibo text vector and differentiating similar words and related words in the vector is put forward. The experimental results show that, The clustering effect of Weibo short text is improved obviously after the expansion of Word2vec word vector related words and Weibo label.
【作者单位】: 北京信息科技大学智能信息处理研究所;
【基金】:国家自然科学基金(No.61370139) 北京市属高等学校创新团队建设与教师职业发展计划项目(No.IDHT20130519)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前7条
1 王东;熊世桓;;基于同义词词林扩展的短文本分类[J];兰州理工大学学报;2015年04期
2 吕超镇;姬东鸿;吴飞飞;;基于LDA特征扩展的短文本分类[J];计算机工程与应用;2015年04期
3 袁满;欧阳元新;熊璋;罗建辉;;一种基于频繁词集的短文本特征扩展方法[J];东南大学学报(自然科学版);2014年02期
4 朱征宇;孙俊华;;改进的基于《知网》的词汇语义相似度计算[J];计算机应用;2013年08期
5 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期
6 毛典辉;;基于MapReduce的Canopy-Kmeans改进算法[J];计算机工程与应用;2012年27期
7 彭泽映;俞晓明;许洪波;刘春阳;;大规模短文本的不完全聚类[J];中文信息学报;2011年01期
相关硕士学位论文 前2条
1 郭永辉;面向短文本分类的特征扩展方法[D];哈尔滨工业大学;2013年
2 阚洳沂;基于词语网络的关键字提取策略研究[D];西南大学;2008年
【二级参考文献】
相关期刊论文 前10条
1 袁满;欧阳元新;熊璋;罗建辉;;一种基于频繁词集的短文本特征扩展方法[J];东南大学学报(自然科学版);2014年02期
2 张素智;刘婧姣;;基于语义的KNN短文本分类算法研究[J];郑州轻工业学院学报(自然科学版);2012年06期
3 范云杰;刘怀亮;;基于维基百科的中文短文本分类研究[J];现代图书情报技术;2012年03期
4 翟延冬;王康平;张东娜;黄岚;周春光;;一种基于WordNet的短文本语义相似性算法[J];电子学报;2012年03期
5 王小林;王义;;改进的基于知网的词语相似度算法[J];计算机应用;2011年11期
6 刘金岭;严云洋;;基于上下文的短信文本分类方法[J];计算机工程;2011年10期
7 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
8 鲁婷;王浩;姚宏亮;;一种基于中心文档的KNN中文文本分类算法[J];计算机工程与应用;2011年02期
9 刘青磊;顾小丰;;基于《知网》的词语相似度算法研究[J];中文信息学报;2010年06期
10 王盛;樊兴华;陈现麟;;利用上下位关系的中文短文本分类[J];计算机应用;2010年03期
相关硕士学位论文 前5条
1 吕向楠;微博客主题分类的特征扩展方法[D];哈尔滨工业大学;2013年
2 曹叶盛;基于关联扩展的中文短文本分类方法研究[D];北京邮电大学;2012年
3 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
4 宋爽;共现分析在文本知识挖掘中的应用研究[D];南京理工大学;2006年
5 董洛兵;基于SWN理论的文本复合关键字提取算法的研究[D];西安电子科技大学;2006年
【相似文献】
相关期刊论文 前10条
1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期
8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期
9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
相关会议论文 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
相关博士学位论文 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
相关硕士学位论文 前10条
1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年
2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年
3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年
4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年
6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年
7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年
8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年
10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
,本文编号:1614149
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1614149.html