LDA模型下不同分词方法对文本分类性能的影响研究
[Abstract]:By defining three indexes of clustering density, class complexity and class clarity, the paper studies the influence of several representative Chinese word segmentation methods on text classification performance under the implicit probability topic model (LDA) from the perspective of corpus information measurement. This paper quantitatively and qualitatively analyzes the applicability of different word segmentation methods in the corpus of different types of texts, such as web pages and academic documents, and the reasons that affect the classification performance. The results show that the three indexes can effectively indicate the influence of word segmentation on the classification of corpus. Ik Analyzer and ICTCLAS participle are influenced by the class complexity and cluster density respectively, while the binary participle is equally affected by the three indexes. So that it has better adaptability to different corpus. For the corpus of academic literature, the classification effect of binary participle method is better than 80%, while the data of web page type is more adaptable to all kinds of word segmentation methods. This paper attempts to choose the best word segmentation method to improve the classification performance of the corpus by measuring the information of the corpus rather than simply experimenting. It is expected to provide a reference for different types of text such as web pages and academic documents to select suitable Chinese word segmentation methods in the classification system based on LDA model.
【作者单位】: 武汉大学信息管理学院;武汉大学信息资源研究中心;
【基金】:国家社会科学基金资助项目(15BTQ066)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张江;基于规则的分词方法[J];计算机与现代化;2005年04期
2 杨柳;袁方;霍亮;;基于渐进式丰富词典的分词方法研究[J];计算机工程与应用;2006年32期
3 彭正龙;许炎义;;一种新的词典分词方法[J];计算机与信息技术;2009年12期
4 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
5 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期
6 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[J];中文信息学报;2007年03期
7 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
8 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
9 王忠建;王悦;;归纳学习与规则结合的分词方法的有效性考察[J];哈尔滨师范大学自然科学学报;2010年01期
10 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
相关会议论文 前4条
1 王俞霖;孙乐;李文波;;基于单字消除和实体识别的查询切分研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关硕士学位论文 前7条
1 周利军;中文分词方法在农业搜索中的应用研究[D];四川农业大学;2015年
2 石金铭;面向微博文本的分词及情感分析研究[D];郑州大学;2016年
3 李慧;词典与统计相结合的傣文分词方法与实现[D];云南大学;2016年
4 游治勇;基于字的分词方法的研究与实现[D];电子科技大学;2015年
5 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年
6 刘浩;面向情感搜索的中文语料分析及其分词[D];北京邮电大学;2014年
7 田占霄;中英文混合分词方法及应用研究[D];河北农业大学;2009年
,本文编号:2144437
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2144437.html