基于语义相关度的中文文本聚类方法研究
本文关键词:基于语义相关度的中文文本聚类方法研究
【摘要】:[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。
【作者单位】: 西安电子科技大学经济与管理学院;
【关键词】: 维基百科 语义相关度 文本相似度 文本聚类
【基金】:国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”的成果,项目编号:71373200
【分类号】:TP391.1
【正文快照】: 随着网络通信技术的不断发展以及计算机的普及应用,网络社会产生了海量的数据信息。作为国内互联网文档信息的主要内容形式,中文文本的信息处理能够帮助用户快速、准确获得所需信息。通过聚类可以有效地管理文本数据,而文本间相似性度量是文本聚类的重要基础。文本相似度通过
【相似文献】
中国期刊全文数据库 前10条
1 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
2 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
3 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
4 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
5 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
6 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
7 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
8 周扬;屈武斌;卢一鸣;张成岗;杨毅;;基于文本频谱的中文文本聚类方法[J];四川大学学报(自然科学版);2012年06期
9 明均仁;;基于本体图的文本聚类模型研究[J];情报科学;2013年02期
10 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
本文关键词:基于语义相关度的中文文本聚类方法研究
,
本文编号:514252
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/514252.html