基于LDA主题模型的短文本分类
本文关键词:基于LDA主题模型的短文本分类
更多相关文章: 潜在狄利克雷分布(LDA) 向量空间模型(VSM) 短文本分类 K近邻(K-nearest neighbor) 吉布斯采样 相似度计算
【摘要】:针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。
【作者单位】: 新疆大学信息科学与工程学院;
【基金】:国家自然科学基金项目(61365005、60965002)
【分类号】:TP391.1
【正文快照】: 0引言短文本分类面临特征稀疏、用词不规范、大量信息即时生成、存在噪音等问题,如何从短文本中提取有效特征并进行快速分类成为目前短文本分类研究热点。传统的文本分类方法有KNN[1]、贝叶斯分类[2]、决策树[3]、SVM[4]、最大熵[5]等,但由于这些方法均要求有足够的词频共现信
【参考文献】
中国期刊全文数据库 前6条
1 李锋刚;梁钰;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分类研究[J];计算机应用研究;2015年01期
2 李湘东;廖香鹏;黄莉;;LDA模型下书目信息分类系统的研究与实现[J];现代图书情报技术;2014年05期
3 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
4 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期
5 孙昌年;郑诚;夏青松;;基于LDA的中文文本相似度计算[J];计算机技术与发展;2013年01期
6 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
中国硕士学位论文全文数据库 前1条
1 胡文静;基于语义理解与PLSA的文本情感分类研究[D];天津师范大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 杨萌萌;黄浩;程露红;马平;包武杰;;基于LDA主题模型的短文本分类[J];计算机工程与设计;2016年12期
2 王震;代岩岩;陈亮;林晓兰;;基于LDA模型的95598热点业务工单挖掘分析[J];电子技术与软件工程;2016年22期
3 李扬;孔雯婧;谢邦昌;;基于主题模型的半监督网络文本情感分类研究[J];数理统计与管理;2016年06期
4 王亚民;胡悦;;基于BTM的微博舆情热点发现[J];情报杂志;2016年11期
5 董鲁豫;;基于监督学习的虚假评论检测研究[J];黑龙江科技信息;2016年29期
6 詹增荣;程丹;;基于LDA与距离度量学习的文本分类研究[J];湖南师范大学自然科学学报;2016年05期
7 薛行贵;高见文;张伯虎;黄立勤;;基于MapReduce的并行LAD模型评论主题提取算法研究[J];福州大学学报(自然科学版);2016年05期
8 李湘东;巴志超;高凡;;数字文本自动分类中特征语义关联及加权策略研究综述与展望[J];现代图书情报技术;2016年09期
9 吕亚伟;李芳;戴龙龙;;基于LDA的中文词语相似度计算[J];北京化工大学学报(自然科学版);2016年05期
10 彭杰;石永革;高胜保;;基于对话内容的交互型文本会话主题挖掘[J];电信科学;2016年09期
中国硕士学位论文全文数据库 前1条
1 赵利军;基于语义分析的网络服务智能交互系统研究[D];西南交通大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期
2 孙李斌;马贤明;赵明明;;基于LDA主题模型的遥感图像表示与分类[J];科技视界;2013年07期
3 孙世杰;濮建忠;;基于LDA模型的Twitter中文微博热点主题词组发现[J];洛阳师范学院学报;2012年11期
4 廖晓锋;王永吉;范修斌;吴敬征;;基于LDA主题模型的安全漏洞分类[J];清华大学学报(自然科学版);2012年10期
5 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
6 黄小亮;郁抒思;关佶红;;基于LDA主题模型的软件缺陷分派方法[J];计算机工程;2011年21期
7 张明慧;王红玲;周国栋;;基于LDA主题特征的自动文摘方法[J];计算机应用与软件;2011年10期
8 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
9 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
10 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
中国硕士学位论文全文数据库 前1条
1 李本阳;句子和篇章文本倾向分析[D];哈尔滨工业大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 王钧;赵曰利;;浙大中药指纹图谱相似度计算软件在烟用香精香料色谱分析中的引入应用[J];现代仪器;2007年03期
2 单建芳;刘宗田;周文;;事件相似度计算[J];小型微型计算机系统;2010年04期
3 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期
4 邸书灵;刘晓飞;李欢;;基于分词的语句相似度计算的改进[J];石家庄铁道大学学报(自然科学版);2011年04期
5 秦学勇;张润梅;;两级相似度计算在主观题机器阅卷中的应用[J];计算机工程;2012年11期
6 田卫东;强继朋;;基于问句类型的问句相似度计算[J];计算机应用研究;2014年04期
7 周凯波,冯珊,李锋;基于案例属性特征的相似度计算模型研究[J];武汉理工大学学报(信息与管理工程版);2003年01期
8 易丽萍,竹勇 ,雷小春;知网在词语相似度计算方面的应用[J];信息技术与信息化;2005年01期
9 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期
10 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
中国重要会议论文全文数据库 前10条
1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前1条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 梁韬;中文微博新词与热点话题发现技术研究[D];湖南工业大学;2015年
2 汪建成;汉越双语新闻话题分析方法研究[D];昆明理工大学;2015年
3 唐海燕;基于全文的教育资源检索模型研究[D];四川师范大学;2015年
4 舒佳根;中文实体链接研究[D];苏州大学;2015年
5 孔行;基于主题推荐的辅助写作系统[D];哈尔滨工业大学;2015年
6 孙润志;基于语义理解的文本相似度计算研究与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年
7 刘敏;基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D];北京理工大学;2015年
8 康毅;面向客服的自动问答系统关键技术研究[D];东北大学;2014年
9 吴宇浩;南海档案数字化半自动校勘中的底本推荐探讨[D];南京大学;2015年
10 吐尔逊阿依·阿不来提;小学维吾尔语文教材中的单句相似度研究[D];新疆师范大学;2015年
,本文编号:1192780
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1192780.html