当前位置:主页 > 科技论文 > 软件论文 >

基于词频统计的文本可视化实现

发布时间:2017-09-24 15:21

  本文关键词:基于词频统计的文本可视化实现


  更多相关文章: 文本可视化 关键词提取 四叉树算法 TF-IDF


【摘要】:随着海量文本的涌现,信息超载和信息提取速度慢等问题促使了文本可视化技术的出现。文本可视化通过对文本资源的分析,提取信息,并以图形化方式呈现出来,为人们提供了一种快速获取文本关键信息的有效手段。在介绍了文本可视化的概念和重要性的基础上,着重阐述了基于词频统计的中文文本可视化的实现方法。基于某微博账户的微博数据,首先使用TF-IDF算法进行关键词提取,得到带有权重的词语,然后基于SVG技术和四叉树算法,实现了文本布局算法。最后得到的可视化效果良好,能全面、直观地反映出用户的兴趣和关注点。
【作者单位】: 北京邮电大学网络与交换国家重点实验室;
【关键词】文本可视化 关键词提取 四叉树算法 TF-IDF
【分类号】:TP391.1
【正文快照】: 0引言文本信息在生活中无处不在,日常中的书籍、邮件、咨询、新闻,都是以文本作为载体。随着信息技术的发展,信息量呈现出爆炸增长,人们通过阅读获取和理解信息的速度明显滞后。传统的文本分析技术,比如文本聚类、语义分析等,能在一定程度上挖掘出文本数据中的主要信息,但是人

【相似文献】

中国期刊全文数据库 前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

中国重要会议论文全文数据库 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

10 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

中国重要报纸全文数据库 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

中国博士学位论文全文数据库 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年

中国硕士学位论文全文数据库 前10条

1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

3 杨名阳;基于空间文本数据的k近邻连接研究[D];上海交通大学;2015年

4 李天彩;短文本信息流的会话抽取与分析技术研究[D];解放军信息工程大学;2015年

5 陈亮宇;面向微博文本的事件抽取[D];东南大学;2015年

6 许慧芳;基于全覆盖粒计算模型的文本表示和特征提取研究[D];太原理工大学;2016年

7 王炜;面向网络舆情的文本语义倾向性分类算法研究[D];河北工程大学;2016年

8 任倚天;基于支持向量机的海量文本分类并行化技术研究[D];北京理工大学;2016年

9 光顺利;基于Spark的文本分类的研究[D];长春工业大学;2016年

10 张高祥;基于SVM的文本信息过滤算法研究[D];吉林大学;2016年



本文编号:912146

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/912146.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0458b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com