基于信息分类的网络书评多文档自动文摘研究
发布时间:2017-09-13 13:09
本文关键词:基于信息分类的网络书评多文档自动文摘研究
更多相关文章: 文本挖掘 意见挖掘 多文档自动文摘 网络书评
【摘要】:网络书店上图书的评论也是一种商品评价文本,这种文本不具有非常规范的模式和严谨的篇章结构,使用的语言也比较自由,并且评价的内容主观性较大,因而不同于其他实体商品的评论内容。由于这些特殊性,使得针对网上书评文本的文摘方法研究具有一定的前沿性。本文就是面向网上书评这种文本进行文本挖掘和情感分类,以建立一种面向网上书评这种主观性文本的多文档自动文摘方法,帮助其他读者做出是否购买或阅读图书的判断。 本文的研究工作包括以下几个方面: (1)首先对书评这种文本进行内容分析,从定量和定性两个方面分析书评这种文本的语言特点、语言模式和内容构成。再对用户进行调研,让读者对随机选取的书评进行手动的文摘撰写,经过统计可以看出,书籍内容信息、情感态度信息、适用读者信息这三类信息在书评中具有普遍性,读者们更愿意从这三方面对一本图书发表评论。从而本研究建立了包含书籍内容、情感态度、适用读者这三类信息的文摘基本框架。 (2)基于构建的自动文摘框架,拟定文摘方法。包括文本预处理,对原始文档进行分句、分词、析出词元、词性标注。建立句子分类器,采用机器学习方法将书评中的句子进行分类,分两种情况进行试验:单一标签分类和多标签分类,实验结果表明多标签分类要优于单一标签分类。 (3)改变特征词集合,对多标签分类实验进行改进,实验结果表明,特征词集合中只选择名词和动词的高频词可以提高适用读者类句子的分类结果;将情感词作为一个独立的特征向量可以提高情感态度类句子的分类效果。 (4)通过分析词组的构词模式、建立线索词表等方法,抽取反映相应类别的关键词组或句子,形成文摘组成部分。在意见挖掘上,本文摘方法利用Sentiwordnet3.0词典辨析句子的情感倾向,得到一本书的情感态度信息形成文摘组成部分。最终,将三类信息按照模板的格式汇总在一起,形成书评多文档自动文摘。 (5)采用内部评价法,通过问卷的方式,根据一些评价指标,让用户直接比较不同系统生成的文摘的质量,为文摘做测评。通过对用户测评结果分析可知,本研究建立的基于分类的书评文摘在写作质量和有用性上都有较好的表现,本研究设计的文摘方法具有一定的可行性和适用性。
【关键词】:文本挖掘 意见挖掘 多文档自动文摘 网络书评
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【目录】:
- 摘要5-7
- ABSTRACT7-11
- 表目录11-12
- 图目录12-13
- 第一章 绪论13-16
- 1.1 研究背景13-14
- 1.2 研究目的与意义14
- 1.3 研究方法14-15
- 1.4 论文结构安排15-16
- 第二章 相关研究综述16-28
- 2.1 主观性文本的意见挖掘16-21
- 2.1.1 研究现状17-20
- 2.1.2 意见挖掘系统20
- 2.1.3 主观性文本的情感挖掘20-21
- 2.2 多文档自动文摘21-28
- 2.2.1 自动文摘概述21-23
- 2.2.2 自动文摘方法23-26
- 2.2.3 文摘的评价方法26-28
- 第三章 文摘方法的设计28-39
- 3.1 书评内容与结构分析28-35
- 3.1.1 书评结构分析29-32
- 3.1.2 内容的定量分析32-35
- 3.2 用户信息需求分析35-36
- 3.3 文摘框架的设计36-38
- 3.4 本章小结38-39
- 第四章 文摘方法的实现39-59
- 4.1 文摘方法概述39-40
- 4.2 书评文本预处理40-42
- 4.3 书评信息的分类42-45
- 4.3.1 分类算法的选择43
- 4.3.2 特征词的选择43-45
- 4.4 分类实验45-52
- 4.4.1 单一标签分类45-48
- 4.4.2 多标签分类48-51
- 4.4.3 多标签分类的改进51
- 4.4.4 情感分类51-52
- 4.5 文摘的呈现52-58
- 4.6 本章小结58-59
- 第五章 用户测评59-69
- 5.1 测评方法设计59-62
- 5.2 测评结果分析62-68
- 5.3 本章小结68-69
- 第六章 结语69-72
- 6.1 研究结论69-70
- 6.2 进一步的研究工作70-72
- 参考文献72-81
- 附录81-91
- 附录1:用户撰写文摘81-85
- 附录2:书评文摘的两篇范例85-87
- 附录3:用户评价的调查问卷87-89
- 附录4:用户评价调查问卷的统计数据89-91
- 致谢91-92
【参考文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 葛斌;蒋林承;肖延东;史宗麟;郭丝路;;网络论坛意见领袖挖掘系统设计与实现[J];电脑知识与技术;2011年22期
3 黄瑾娉;苏庭波;;一种产品评论信息的意见挖掘技术研究[J];工业控制计算机;2011年06期
4 来亮;钱屹;;文本情感分析综述[J];计算机光盘软件与应用;2012年18期
5 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
6 孙宏纲;陆余良;;中文博客主题情感句自动抽取研究[J];计算机工程与应用;2008年20期
7 侯锋;王传廷;李国辉;;网络意见挖掘、摘要与检索研究综述[J];计算机科学;2009年07期
8 孙向琨;邓伟;;结合TF-IDF的歌曲情感多标记分类[J];计算机工程;2011年19期
9 李实;叶强;李一军;罗嗣卿;;挖掘中文网络客户评论的产品特征及情感倾向[J];计算机应用研究;2010年08期
10 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
,本文编号:843881
本文链接:https://www.wllwen.com/wenshubaike/kcsz/843881.html