当前位置:主页 > 管理论文 > 移动网络论文 >

面向中文微博的关键词提取技术研究

发布时间:2018-04-26 10:29

  本文选题:提取 + 中文微博 ; 参考:《中南大学》2014年硕士论文


【摘要】:摘要:面对中文微博文本书写随意,信息不完整,噪声大,怎么在数量如此巨大又杂乱无序的微博信息中提取关键信息成为中文自然语言处理的重点。关键词自动提取是文本挖掘领域的一个分支,也是文本检索、文本比较、文本分类和聚类等文本内容处理研究的基础性工作。 本文研究的主要内容就是如何从中文微博文本数据提取出能说明微博内容的主题词,即关键词。传统的人工方法在数据量如此巨大的微博信息中是不适用的。因此本文在将概率主题模型LDA应用到中文关键词提取的基础上,借助统计学方法在“词汇层次”引入外部语义库,加大语义词语的权重,提出一种多特征融合的概率主题模型,使提取的关键词更加准确、更加结合实际。 主要工作如下: (1)深入研究中文微博数据特征结构,对现有的隐含语义模型结合中文微博数据进行了对比分析。 (2)深入研究隐含主题模型在中文微博中的应用,详细的分析了隐含主题模型的特点,构建了中文微博特有的词袋模型,应用到中文微博中,将文本的主题分布向量,直接映射到内部隐含主题,弥补传统的单纯利用词频信息表示文本带来的信息丢失的缺点,减少短文本的数据稀疏性。 (3)中文微博的主题是由其本身的内容决定,因此本文提出一种基于文本本身隐含语义与外部语义相结合的多特征融合概率模型,在隐含主题模型上结合《知网》语义库加入统计学权重,从粗粒度“主题层次”和细粒度“词汇层次”对词汇进行研究,提取关键词。并对该方法进行实验分析,实验结果表明该方法在中文微博关键词提取上有很好效果,具有较好的实用价值。图30幅,表18个,参考文献59篇。
[Abstract]:Abstract : In the face of arbitrary , incomplete information and big noise in Chinese micro - blog , it is the focus of Chinese natural language processing to extract key information from such huge and chaotic micro - blog information .

The main content of this paper is how to extract the subject words which can explain the content of microblog from the data of Chinese micro blog . The traditional manual method is not applicable in the micro blog information with such huge amount of data . Therefore , based on the application of the probabilistic topic model LDA to Chinese keyword extraction , this paper introduces a probabilistic topic model of multi - feature fusion based on the application of probabilistic topic model LDA to Chinese keyword extraction , and puts forward a multi - feature fusion probability theme model , which makes the extracted keywords more accurate and more practical .

The main work is as follows :

( 1 ) To study the feature structure of Chinese microblog data , and compare the existing implicit semantic model with Chinese microblog data .

( 2 ) In - depth study of the application of implicit thematic model in Chinese micro - blog , the feature of hidden theme model is analyzed in detail , and the special word - bag model of Chinese micro - blog is built .

( 3 ) The subject of Chinese microblog is decided by its own content , so this paper proposes a multi - feature fusion probability model based on the combination of the hidden semantic and the external semantics of the text itself .

【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前10条

1 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期

2 李晓明;刘建国;;搜索引擎技术及趋势[J];电脑与电信;2008年05期

3 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期

4 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期

5 韩慧,毛锋,王文渊;数据挖掘中决策树算法的最新进展[J];计算机应用研究;2004年12期

6 杨亮;林原;林鸿飞;;基于情感分布的微博热点事件发现[J];中文信息学报;2012年01期

7 王磊;黄广君;;结合概念语义空间的语义扩展技术研究[J];计算机工程与应用;2012年35期

8 李劲;张华;吴浩雄;向军;;基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J];计算机应用;2012年08期

9 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期

10 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期



本文编号:1805670

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1805670.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户56be6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com