当前位置:主页 > 科技论文 > 搜索引擎论文 >

短消息文本处理关键技术研究

发布时间:2018-04-02 04:11

  本文选题:短消息文本 切入点:文本聚类 出处:《西南财经大学》2013年硕士论文


【摘要】:当前我们正处于网络信息爆炸的时代,虽然知识信息的获取方式变得简单,但在以几何级数增长的数据面前我们获取信息效率却变得低下。如何在海量数据中及时准确获取我们所需要的信息依然是一个困扰人们的难题。文本聚类技术可以将看似杂乱无章的数据聚合成基于某一主题特征的类别信息,方便我们能及时准确地发现有效信息。中文短消息文本由于其自身文本长度短、语义丰富、人们用语习惯导致的语法不规范、含有错别字以及以几何级数增长等特点都决定了短消息文本在聚类处理中有着相当大的困难。文本长度短有可能导致提取出来的文本特征没有意义,而错别字以及丰富的语义给自然语言处理带来了识别方面的困难,短消息、文本呈几何级数增长给聚类技术处理的效率带来了很大的挑战。现实中搜索引擎有时会对短消息文本不进行处理,但多数时候处理的效率比较低很难发现有价值有意义的信息。然而短消息文本中蕴含了丰富的信息,如何从中提取有意义的知识已经变得越来越具有实际意义。 本文以中文短消息文本为研究对象,以短消息文本聚类算法的对比评价为主要研究方法,对短消息文本聚类的相关技术进行了研究:从抓爬技术从Web中获取短消息文本、分词技术对中文文本进行分词处理以及通过将文本向量化表示成计算机可以识别的模型之后进行聚类技术等进行相关的研究。涉及的主要内容包括:从短消息文本的获取,短消息文本的内容提取,短消息文本的去噪,短消息文本的分词以及去除停用词到短消息、文本的向量化表示,短消息文本的特征选择再到短消息文本的聚类算法等关键技术进行了一系列的探讨和研究。具体研究工作包括: (1)对网络爬虫技术的原理以及网络爬虫的工作方式进行了系统的介绍,之后运用网络爬虫技术进行了本文聚类研究的数据集的采集工作,接着详细地概述了中文文本分词技术的原理,中文分词技术的难题以及目前比较流行的中文分词系统运用,在此基础之上通过调用中科院分词系统(ictclas)将从Web上获取的短消息文本进行分词,在分词的基础之上运用停用词库去除短消息文本中的高频无意义词语,避免对聚类结果产生影响。 (2)系统研究了中文文本向量化表示模型,文本的特征选择避免高维数据对文本聚类算法带来维度灾难,在随后的研究中采用了基于向量空间模型的文本表示方法和基于词频的特征选择方法将文本规范化成我们聚类所需要的数据结构形式。 (3)重点概述了近邻传播(AP)算法的基本原理,算法中涉及到的基本概念以及算法运行的过程,讨论研究了算法在运行过程的参数选择对聚类结果和算法效率的影响,简单介绍了k-means算法的流程以及优缺点,对基于词语顺序的聚类算法(后缀树聚类算法)进行了探讨,明确了后缀树算法的步骤以及构建后缀树的过程。其次利用提前分好类别的短消息文本数据集进行了实验仿真,通过聚类评价指标准确率,召回率以及F值来比较三种聚类算法的聚类效果。通过聚类评价指标的比较发现基于AP算法的文本聚类在聚类准确度上比另外两种算法有一定优势,可以应用在接下来的原型系统构建中。 (4)设计实现了一个基于近邻传播(AP)算法的短消息文本聚类原型系统,该系统可以根据用户输入的URL进行Web数据信息的获取,并进行短消息文本的聚类为用户及时准确的发现我们所需要的信息提供了较大的便利。
[Abstract]:......
【学位授予单位】:西南财经大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期

2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

3 董俊;王锁萍;熊范纶;;可变相似性度量的近邻传播聚类[J];电子与信息学报;2010年03期

4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期

6 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期

7 龙真真;张策;刘飞裔;张正文;;一种改进的Chameleon算法[J];计算机工程;2009年20期

8 赵康;陆介平;倪巍伟;王桂平;;一种基于密度的文本聚类挖掘算法[J];计算机应用研究;2009年01期

9 王开军;张军英;李丹;张新娜;郭涛;;自适应仿射传播聚类[J];自动化学报;2007年12期

10 肖宇;于剑;;基于近邻传播算法的半监督聚类[J];软件学报;2008年11期



本文编号:1698719

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1698719.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77c92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com