面向微博应用的新闻文本自动摘要研究
本文关键词:面向微博应用的新闻文本自动摘要研究 出处:《郑州大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 语义特征 统计特征 Ranking SVM 新闻文本自动摘要 润色处理
【摘要】:Web2.0时代到来后,大数据时代接踵而至,微博等社交媒体越来越受到社会和研究者们的高度关注,面向微博应用的相关任务以及评测也在逐年增加。文本自动摘要主要是通过计算机自动提取文本的关键信息,生成反映文本中心主旨的短文,能够方便压缩文本内容、加快信息交流速度、提升信息检索效率。因此,本文的主要研究工作是面向微博应用的新闻文本自动摘要研究,通过文本自动摘要技术,微博用户可以实现对所关注新闻进行快速缩减然后转发,能够很大程度减少微博用户人工编辑新闻字数再进行转发所耗费的时间,具有很高的实用价值。在深入学习了目前文本自动摘要相关研究方法的基础上,本文提出了基于多层次特征和Ranking SVM(Support Vector Model)排序模型的面向微博应用的新闻文本自动摘要研究算法,具体研究工作如下:(1)多层次特征提取。深入挖掘新闻文本各个统计特征及语义特征即句子词频、句子位置、句子与标题相似度、句子长度、指示性词语等统计特征和主题句这一语义特征,全面分析不同特征的提取方法,积极探索基于新闻文本的表示模型,以更好地运用文本特征。(2)文本句子排序。本文首先预处理新闻文本训练数据中各个句子并将其处理成能够运用的形式,接着将其转换为dat文件作为输入,获得Ranking SVM训练模型,利用得到的模型对处理好的测试数据文本中的各个句子进行排序,最终得到句子由高到低的排序;后期使用冗余处理、通顺度处理、指代消解等相应的可读性加工原则,对排好序的句子进行处理,最终得到比较理想的低冗余度及相对通顺的摘要句集合。最后,本文将上述特征提取方法及句子排序算法在NLPCC2015面向微博新闻自动摘要评测任务的数据集上做实验,实验结果的ROUGE-1值达到50%以上,具备可行性。
[Abstract]:The arrival of Web2.0 era, the era of big data followed, micro-blog and other social media paid more and more attention by society and researchers, the relevant task for micro-blog application and evaluation also increased year by year. Automatic text summarization is the key information automatic extraction of text by computer, text generation reflects the central theme of the passage can be easily compressed the text content, accelerate the speed of information exchange, enhance the efficiency of information retrieval. Therefore, the main work of this paper is to study the news text summarization for micro-blog applications, through the automatic text summarization technology, micro-blog users can realize to the attention of the press are shrinking fast and forward, can greatly reduce micro-blog user manual editing news words again forwarding time, has very high practical value. In depth study of the current automatic text summarization related Based on the research method, this paper proposes a multi level feature based on SVM and Ranking (Support Vector Model) news automatic text summarization algorithm based on ranking model micro-blog oriented applications, specific studies are as follows: (1) extracting multi level feature. Dig the various news statistics and semantic features of that sentence word, sentence the position, title and sentence similarity, sentence length, indicative words such as statistical features and the semantic features of the topic sentence, the comprehensive analysis method to extract different features, and actively explore based on news text representation model, in order to better use the text features. (2) the text sentence ordering. Firstly, preprocessing each sentence of news text training data in the process to use the form, and then convert it to dat file as input, Ranking SVM training model, using the model of processing Each sentence in the text of the test data well sorted, finally get the sentence from high to low ranking; the use of redundant processing, smoothness, readability refers to the corresponding principle of coreference resolution processing, processing of sorted sentences, finally get the ideal low redundancy and relatively smooth Abstract sentence set. Finally, the method of feature extraction and sentence ranking algorithm for micro-blog News Summarization Evaluation task in NLPCC2015 data sets to do the experiment, the experimental results of the ROUGE-1 value reached more than 50%, with feasibility.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 ;中英文自动摘要系统软件问世[J];情报理论与实践;2001年01期
2 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期
3 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期
4 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期
5 王彩霞;试论自动摘要技术[J];晋图学刊;2003年02期
6 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
7 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期
8 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
9 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期
10 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期
相关会议论文 前9条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年
4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年
7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
9 贺春禄;;报纸科技新闻文本的受众解读[A];中国科技新闻学会第九次学术年会论文集[C];2007年
相关重要报纸文章 前1条
1 董天策 暨南大学新闻学院教授;多研读新闻文本[N];中华新闻报;2005年
相关博士学位论文 前3条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
3 孙发友;新闻文本显性状态及其潜在张力[D];华中科技大学;2007年
相关硕士学位论文 前10条
1 李孟爽;面向微博应用的新闻文本自动摘要研究[D];郑州大学;2017年
2 王馨;网络新闻热点发现研究[D];河北大学;2015年
3 李子健;专题摘要自动生成技术研究[D];浙江大学;2015年
4 熊娇;基于词项—句子—文档三层图模型的多文档自动摘要[D];江西师范大学;2015年
5 程园;舆情分析中维吾尔文文本自动摘要研究[D];新疆大学;2015年
6 梁入文;基于文本意见挖掘的烟台大学教学评价系统设计与实现[D];电子科技大学;2015年
7 杨瑞;在线网络中文本自动摘要系统研究和实现[D];南京航空航天大学;2014年
8 唐亚娟;基于文本挖掘的粮食情报分析技术与系统实现[D];河南工业大学;2015年
9 张占江;基于短语主题模型和多文档自动摘要技术的文献综述内容推荐[D];浙江大学;2016年
10 董非;基于图的主观性多文本自动摘要方法研究和实现[D];上海交通大学;2015年
,本文编号:1382565
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1382565.html