当前位置:主页 > 科技论文 > 软件论文 >

融合HowNet和BTM模型的短文本聚类方法

发布时间:2019-06-14 07:58
【摘要】:针对常规技术对短文本聚类时出现的相似度计算准确度较差、聚类结果不稳定等问题,提出一种以HowNet语义词库和BTM主题建模为基础的相似度计算方法,将两者进行线性组合,综合考察短文本的相似性。建立基于聚类质量和聚类差异度的聚类结果评价指标,进行优劣评价,过滤出质量较好的结果,利用CSPA融合算法进行聚类融合。实验结果表明,该方法提高了短文本相似度计算的准确性,改进了融合结果稳定性。
[Abstract]:In order to solve the problems of poor accuracy and unstable clustering results in short text clustering by conventional techniques, a similarity calculation method based on HowNet semantic thesaurus and BTM topic modeling is proposed, which combines them linearly to comprehensively investigate the similarity of short texts. The evaluation index of clustering results based on clustering quality and clustering difference is established, the advantages and disadvantages are evaluated, the results with good quality are filtered out, and the CSPA fusion algorithm is used for clustering fusion. The experimental results show that the method improves the accuracy of similarity calculation of short text and improves the stability of fusion results.
【作者单位】: 武昌理工学院信息工程学院;武汉大学计算机学院;
【基金】:湖北省自然科学基金项目(2014CFB356)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

7 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

8 邱立坤;程葳;龙志yN;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

10 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

相关硕士学位论文 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年



本文编号:2499242

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2499242.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ed642***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com