基于中文微博的自动文摘研究
本文关键词:基于中文微博的自动文摘研究
更多相关文章: 中文微博 LDA主题模型 自动文摘 空间向量模型
【摘要】:随着互联网的普及和计算机信息技术的高速发展,社交网络服务平台也随之飞速迅猛的发展起来,并渐渐渗透进社会各个用户群里,很大程度上提高了人们的交流速度与交流频率。如今,微博已经成为广大用户发布和获取信息的重要渠道之一。正是因为微博能够快捷方便的获取信息,微博平台上集聚着大量的用户群体和文本信息资源。信息量的急剧增长,不仅极大的促进了人们之间的交流与沟通,同时也为人类文明和经济的发展做出了巨大的贡献。但是,随着微博平台已经成为人们获取信息的重要来源,信息产生和传播的速度远远超出了用户处理的能力。随之而来的问题是,用户如何从大量的微博信息中快速准确的找到他们所需要的感兴趣事件,并继续了解该事件的后续报道。如果用户想要知道整个事件的发展经过,则需要花大量时间阅读以过滤掉大量的不相关信息,其中包括大量意思相同的信息,这大大降低了用户获取有效信息的效率。因此,针对如何有效的从大量微博文本中获取同一话题的内容,生成自动文摘技术是至关重要的。本文主要探索和研究自动文摘方法及其相关的知识体系和知识理论,提出了两种中文微博自动文摘方法并进行了评测和对比。本文的研究工作主要包括以下三个方面:首先,爬取得到新浪微博的文本内容,将其制成分类的数据集。通过新浪微博平台上提供的API接口获取微博文本数据,去噪后通过人工标注,得到一个分类的数据集。最终选定5625条微博数据,分为训练数据3612条和测试数据1013条。其次,分别实现了基于VSM的微博自动文摘方法与基于LDA的微博自动文摘方法。在对VSM模型和LDA主题模型的细致研究的基础上,分别构建基于这两种方法的中文微博自动文摘方法,并对两种方法进行评测和对比。最后,提出基于VSM和LDA模型相结合的中文微博自动文摘方法。通过对VSM和LDA两种方法的结果进行分析,提出了将两者相结合的中文微博自动文摘方法。在生成文摘时,主要以主题的重要度、句子中含有的关键词的覆盖度、句子的词频、句子的长度、评论数和转发数这些特征因素来衡量句子的权重值。通过计算空间夹角余弦值来衡量句子之间的相似性,以此进行语句的压缩,完成中文微博的文摘生成。最终对该方法进行评测,并将其评测值与基于VSM生成的微博文摘和基于LDA生成的微博文摘实验结果的进行对比分析。实验结果证明,将VSM和LDA主题模型相结合的方法,相对于基于VSM生成的微博文摘方法和基于LDA生成的微博文摘方法,更为准确的抽取微博文本的文摘内容,从而实现用户对实时消息的搜索。
【学位授予单位】:内蒙古师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
2 陆和健;李祝启;;网络信息自动文摘研究[J];情报科学;2008年10期
3 林莉;;自动文摘的生成方法与评价研究[J];图书馆学刊;2009年05期
4 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期
5 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
6 王开铸,吴岩,刘挺,张军;自动文摘设计模型[J];电脑学习;1995年05期
7 王开铸,吴岩,刘挺;基于理解的自动文摘系统设计[J];电脑学习;1996年02期
8 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
9 胡舜耕,钟义信,魏超成;基于多Agent技术的自动文摘研究[J];计算机工程与应用;2000年09期
10 宋今,赵东岩;基于语料库与层次词典的自动文摘研究(英文)[J];软件学报;2000年03期
中国重要会议论文全文数据库 前10条
1 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前1条
1 教育部语言文字应用研究所副所长 靳光瑾 中国社会科学院语言文字应用系研究生 易江燕;话题发现技术:决策参考的“探测器”[N];中国社会科学报;2014年
中国博士学位论文全文数据库 前10条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 胡珀;融合上下文信息的自动文摘研究[D];武汉大学;2013年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
7 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
8 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
9 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
10 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 陈奕辰;基于句子权重和篇章结构的自动文摘算法的研究与实现[D];湖南师范大学;2015年
2 苏彬;基于Word2Vec的自动文摘系统的设计与实现[D];河北科技大学;2015年
3 孙佩佩;面向事件的自动文摘研究[D];安徽理工大学;2016年
4 曹洋;基于TextRank算法的单文档自动文摘研究[D];南京大学;2016年
5 刘俊斐;自动文摘后处理算法的研究和实现[D];湖南师范大学;2016年
6 李方馨;基于中文微博的自动文摘研究[D];内蒙古师范大学;2016年
7 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
8 石子言;用户驱动的特定领域自动文摘系统设计与实现[D];东北师范大学;2009年
9 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
10 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
,本文编号:1230273
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1230273.html