当前位置:主页 > 科技论文 > 软件论文 >

基于聚类与语义相似分析的多文本自动摘要方法

发布时间:2018-03-30 17:59

  本文选题:自动摘要 切入点:云计算 出处:《情报杂志》2017年06期


【摘要】:[目的/意义]现有文本自动摘要算法普遍存在处理速度慢、压缩率不足或摘要质量不高等问题,如何高效处理、有效利用海量文本是图书馆信息管理及服务一个重要的研究方向。[方法/过程]提出了一种云计算平台下基于聚类与语义相似分析的多文本自动摘要方法。该方法在文本向量化基础上,通过MapReduce框架对多文本进行聚类、主题抽取、主题词及语义相似词频率统计等处理,然后摘取主题句构造出多文本摘要。[结果/结论]实验结果证实,基于聚类与语义相似分析的MapReduce自动摘要架构在生成大规模多文本摘要时,不但具有较好的时间性能,同时也具有较好的压缩效果并保证较高的摘要质量。
[Abstract]:[purpose / significance] existing automatic text summarization algorithms generally have problems such as slow processing speed, low compression ratio or low summary quality, and how to deal with them efficiently. Effective use of mass text is an important research direction of library information management and service. [method / process] this paper proposes a multi-text automatic summary method based on clustering and semantic similarity analysis in cloud computing platform. On the basis of text vectorization, Through the MapReduce framework, we deal with multi-text clustering, topic extraction, topic words and semantic similar words frequency statistics, then extract topic sentences to construct multi-text abstracts. [results / conclusions] Experimental results prove that, The MapReduce automatic summary architecture based on clustering and semantic similarity analysis not only has good time performance but also has good compression effect and high summary quality when generating large scale multi-text abstracts.
【作者单位】: 广州航海学院图书馆;
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 王李冬;张慧熙;;基于HowNet的微博文本语义检索研究[J];情报科学;2016年09期

2 谭晋秀;何跃;;基于k-means文本聚类的新浪微博个性化博文推荐研究[J];情报科学;2016年04期

3 张钊;张新峰;郑楠;贵明俊;;基于Hadoop平台的LDA算法的并行化实现[J];计算机工程与科学;2016年02期

4 李峰;黄金柱;李舟军;杨伟铭;;使用关键词扩展的新闻文本自动摘要方法[J];计算机科学与探索;2016年03期

5 彭敏;高斌龙;黄济民;刘纪平;;基于高质量信息提取的微博自动摘要[J];计算机工程;2015年07期

6 程园;吾守尔·斯拉木;买买提依明·哈斯木;;基于综合的句子特征的文本自动摘要[J];计算机科学;2015年04期

7 宋杰;刘雪冰;朱志良;李甜甜;赵大哲;于戈;;一种能效优化的MapReduce资源比模型[J];计算机学报;2015年01期

8 李成果;;基于DSC的多文本自动摘要[J];计算机系统应用;2014年07期

9 张培晶;宋蕾;;基于LDA的微博文本主题建模方法研究述评[J];图书情报工作;2012年24期

10 纪文倩;李舟军;巢文涵;陈小明;;一种基于LexRank算法的改进的自动文摘系统[J];计算机科学;2010年05期

相关硕士学位论文 前1条

1 蒋翠翠;基于动态质心的Web文本分类方法及应用研究[D];中国科学院深圳先进技术研究院;2014年

【共引文献】

相关期刊论文 前10条

1 翟光明;李国和;吴卫江;洪云峰;周晓明;汪静;;基于Spark的人工蜂群改进算法[J];计算机应用;2017年07期

2 廖彬;张陶;国冰磊;于炯;张旭光;刘炎;;基于Spark的ItemBased推荐算法性能优化[J];计算机应用;2017年07期

3 刘海燕;张钰;;基于LexRank的中文单文档摘要方法[J];兵器装备工程学报;2017年06期

4 杜秀英;;基于聚类与语义相似分析的多文本自动摘要方法[J];情报杂志;2017年06期

5 肖明;易红发;;社交媒体推特上的中国形象研究[J];北方传媒研究;2017年02期

6 常成;;PDMiner平台的主动配电网安全监测系统[J];哈尔滨理工大学学报;2017年02期

7 肖明;易红发;;推特上中国形象的主题与情感分析[J];对外传播;2017年03期

8 夏名首;刘玉林;;基于K-MEANS聚类的电商店铺经营策略分析[J];商业经济研究;2017年05期

9 方小飞;黄孝喜;王荣波;谌志群;王小华;;基于LDA模型的移动投诉文本热点话题识别[J];数据分析与知识发现;2017年02期

10 马夏夏;蔡永明;刘贵香;;基于LDA的股市复杂网络研究热点分析[J];情报探索;2016年11期

【二级参考文献】

相关期刊论文 前10条

1 张亚莉;鲁梦华;徐yN飞;;基于文本分析的微博博文影响力实证研究[J];现代情报;2015年02期

2 荀静;刘培玉;杨玉珍;张艳辉;;基于潜在狄利克雷分布模型的多文档情感摘要[J];计算机应用;2014年06期

3 唐晓波;房小可;;基于语义查询扩展的微博检索[J];情报资料工作;2014年02期

4 黄成;;基于用户动机的微博客信息流个性化推荐模型构建[J];情报杂志;2013年11期

5 谢浩;孙伟;;基于段落-句子互增强的自动文摘算法[J];计算机科学;2013年S2期

6 宋杰;李甜甜;朱志良;鲍玉斌;于戈;;云数据管理系统能耗基准测试与分析[J];计算机学报;2013年07期

7 王旭仁;姚叶鹏;冉春风;何发镁;;一种并行LDA主题模型建立方法研究[J];北京理工大学学报;2013年06期

8 王连喜;;微博短文本预处理及学习研究综述[J];图书情报工作;2013年11期

9 宋杰;侯泓颖;王智;朱志良;;云计算环境下改进的能效度量模型[J];浙江大学学报(工学版);2013年01期

10 郑志娴;;微博个性化内容推荐算法研究[J];电脑开发与应用;2012年12期

相关硕士学位论文 前2条

1 谢华;基于特征选择和质心构建的文本分类研究[D];大连理工大学;2010年

2 王之鹏;Web文本分类系统中文本预处理技术的研究与实现[D];南京理工大学;2009年

【相似文献】

相关期刊论文 前10条

1 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期

2 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期

3 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期

4 王彩霞;试论自动摘要技术[J];晋图学刊;2003年02期

5 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期

6 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期

7 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期

8 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期

9 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期

10 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期

相关会议论文 前8条

1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前2条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

相关硕士学位论文 前10条

1 王馨;网络新闻热点发现研究[D];河北大学;2015年

2 李子健;专题摘要自动生成技术研究[D];浙江大学;2015年

3 熊娇;基于词项—句子—文档三层图模型的多文档自动摘要[D];江西师范大学;2015年

4 程园;舆情分析中维吾尔文文本自动摘要研究[D];新疆大学;2015年

5 梁入文;基于文本意见挖掘的烟台大学教学评价系统设计与实现[D];电子科技大学;2015年

6 杨瑞;在线网络中文本自动摘要系统研究和实现[D];南京航空航天大学;2014年

7 唐亚娟;基于文本挖掘的粮食情报分析技术与系统实现[D];河南工业大学;2015年

8 董非;基于图的主观性多文本自动摘要方法研究和实现[D];上海交通大学;2015年

9 吴灿丽;基于改进HMM下自动摘要的生成[D];浙江理工大学;2017年

10 官宸宇;面向事件的社交媒体文本自动摘要研究[D];武汉大学;2017年



本文编号:1687000

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1687000.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a1d3b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com