Web评论文本情感分类方法研究
本文关键词:Web评论文本情感分类方法研究
更多相关文章: 情感分类 特征扩展 半监督学习 自训练 协同训练
【摘要】:随着电子商务及社会媒体的快速发展,用户越来越习惯于在互联网上针对商品、新闻事件、公众人物等各种对象及主题发表评论。面对不断涌现的海量Web评论文本,传统的人工方式难以对其中的观点信息进行全面有效的分析利用,因此,近年来文本情感分析研究得到了广泛关注。作为文本情感分析中的一项核心任务,文本情感分类旨在对带有情感色彩的文本进行情感倾向性分类,具有重要的学术研究价值及广泛的应用前景,同时也面临诸多挑战性问题。本文围绕文本情感分类研究所面临的数据稀疏性、标注样本获取困难、情感资源的不平衡性等问题,开展了一系列研究。主要工作及贡献包括以下几点:①提出了基于特征扩展与集成学习的句子级情感分类方法。针对句子级评论文本中的数据稀疏性问题,本文在大规模无标注数据集上训练主题模型和词向量表示模型。通过主题模型来获得主题特征,通过词向量表示模型来获得相关词特征。然后分别利用这两种特征来对文本进行特征扩展,并相应训练分类器。在此基础上,本文进一步利用集成学习方法将不同分类器的分类结果进行集成,得到最终分类器。实验结果表明:基于特征扩展与集成学习的情感分类方法中,主题特征及相关词特征均能有效地对文本进行特征扩展,缓解数据稀疏性问题。最终分类器由于集成了两类不同分类器的分类结果,能综合利用主题特征及相关词特征的语义信息,进一步提升分类性能。②提出了基于情感词典与机器学习的无监督情感分类框架。针对有监督情感分类方法中标注样本获取困难的问题,本文提出一种不依赖于人工标注语料的无监督情感分类框架。该框架分两阶段来进行情感分类:第一阶段利用情感词典资源从无标注语料中挑选置信度高的样本来构成伪标注训练集;第二阶段则使用半监督学习方法,利用伪标注训练集及无标注数据来学习分类器,获得分类结果。在四个公共数据集上的实验结果表明:无监督情感分类框架通过对情感词典及语料的有效应用,能够有效改善分类性能;进一步,本文还比较了各种半监督学习算法在分类框架中的分类效果,发现自训练方法具有分类性能好、适应性强等特点,适用于该情感分类框架。③提出了基于数据集划分与自训练的无监督文档情感分类方法。在第②项研究工作的基础上,针对自训练法在迭代过程中所累积的样本噪声导致分类性能下降的问题,本文提出一种基于数据集划分的改进自训练法。该方法在数据子集上学习分类器,并在迭代过程中由两个分类器对无标注样本的分类结果进行一致性检验。在四个公共数据集上的实验结果表明:基于改进自训练分类器的无监督情感分类方法能有效地降低错误标记样本带来的影响,相比其他一系列基准方法有显著的性能提升,在部分数据集上的分类性能甚至超出了有监督学习方法的分类性能。④提出了基于随机子空间与协同训练的跨语言情感分类方法。针对情感资源的不平衡性问题,本文研究跨语言情感分类问题,以充分利用不同语言的资源。在利用语言学知识的基础上,提出了一种基于词性组合的随机子空间法,并将其应用于中文及英文这两种语言视图上,然后将得到的多个子视图应用于协同训练方法中来进行跨语言情感分类。实验结果表明:将基于词性组合的随机子空间法应用于协同训练框架中,由于得到更多冗余视图,能有效地利用不同语言中的标注语料及无标注语料,从而显著地提升跨语言情感分类性能。
【关键词】:情感分类 特征扩展 半监督学习 自训练 协同训练
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 中文摘要3-5
- 英文摘要5-11
- 1 绪论11-25
- 1.1 研究背景与意义11-12
- 1.2 研究现状及分析12-21
- 1.2.1 文档级情感分类13-16
- 1.2.2 句子级情感分类16-18
- 1.2.3 词语级情感分类18-20
- 1.2.4 跨领域情感分类20
- 1.2.5 跨语言情感分类20-21
- 1.3 面临的问题及挑战21-22
- 1.4 本文的主要工作22-23
- 1.5 本文的内容安排23-25
- 2 文本情感分类基础知识25-33
- 2.1 引言25
- 2.2 向量空间模型25-26
- 2.3 常用分类方法26-30
- 2.3.1 朴素贝叶斯法26-27
- 2.3.2 支持向量机27-28
- 2.3.3 最大熵模型28-30
- 2.4 评价指标30-31
- 2.5 常用情感资源31-32
- 2.5.1 情感词典31
- 2.5.2 情感语料31-32
- 2.6 本章小结32-33
- 3 基于特征扩展与集成学习的句子级情感分类方法33-57
- 3.1 引言33-35
- 3.2 相关工作35-36
- 3.2.1 短文本分类/聚类35
- 3.2.2 句子级情感分类35-36
- 3.3 概率主题模型36-39
- 3.3.1 LDA模型36-37
- 3.3.2 JST模型37-39
- 3.4 词向量表示模型39-40
- 3.5 基于特征扩展及集成学习的情感分类算法40-44
- 3.5.1 算法框架40-41
- 3.5.2 基于主题的特征扩展41
- 3.5.3 基于相关词的特征扩展41-42
- 3.5.4 集成分类器构建42
- 3.5.5 算法的整体描述42-44
- 3.6 实验及分析44-56
- 3.6.1 实验数据集及设置44-45
- 3.6.2 数据预处理45-46
- 3.6.3 对比方法46-47
- 3.6.4 实验结果及分析47-52
- 3.6.5 数据驱动特征与基于情感词典的特征的对比52
- 3.6.6 参数分析52-54
- 3.6.7 外部数据集大小的影响54-56
- 3.7 本章小结56-57
- 4 基于情感词典与机器学习的无监督情感分类框架57-73
- 4.1 引言57-58
- 4.2 相关工作58-59
- 4.3 半监督学习方法59-62
- 4.3.1 自训练59
- 4.3.2 直推式支持向量机59-61
- 4.3.3 谱图直推器61-62
- 4.4 词典与统计相结合的无监督情感分类框架62-65
- 4.4.1 基于情感词典的分类阶段62-64
- 4.4.2 基于语料的学习阶段64-65
- 4.5 实验及分析65-71
- 4.5.1 实验数据集65-66
- 4.5.2 情感词典66
- 4.5.3 实验设置66-67
- 4.5.4 对比方法67-68
- 4.5.5 实验结果及分析68-71
- 4.6 小结71-73
- 5 基于数据集划分与自训练的无监督文档情感分类方法73-93
- 5.1 引言73
- 5.2 相关工作73-74
- 5.3 基于数据集划分与自训练的情感分类算法74-80
- 5.3.1 文档的情感倾向性分值计算75-76
- 5.3.2 数据集划分76-77
- 5.3.3 改进的自训练方法77-78
- 5.3.4 算法的整体过程78-80
- 5.4 实验及分析80-91
- 5.4.1 实验设置80
- 5.4.2 对比方法80-81
- 5.4.3 实验结果及分析81-85
- 5.4.4 参数分析85-88
- 5.4.5 数据集大小的影响88-91
- 5.5 小结91-93
- 6 基于随机子空间与协同训练的跨语言情感分类方法93-105
- 6.1 引言93-94
- 6.2 相关工作94-95
- 6.3 跨语言情感分类算法95-98
- 6.3.1 基于词性组合的随机子空间法96-97
- 6.3.2 基于特征子空间的协同训练算法97-98
- 6.4 实验及分析98-104
- 6.4.1 实验设置98-100
- 6.4.2 对比方法100
- 6.4.3 实验结果及分析100-102
- 6.4.4 参数分析102-104
- 6.5 小结104-105
- 7 总结与展望105-107
- 7.1 论文的主要贡献及创新之处105-106
- 7.2 后续研究工作的展望106-107
- 致谢107-109
- 参考文献109-123
- 附录123-124
- A作者在攻读博士学位期间发表的论文目录123-124
- B作者在攻读博士学位期间参加的科研项目124
- C作者在攻读博士学位期间所获科研奖励124
【相似文献】
中国期刊全文数据库 前10条
1 李广洲,丁金芳,邓海山;基于Web的化学计算机化自适应测验系统的实现[J];计算机与应用化学;2002年05期
2 赵松林;基于Web服务的企业应用集成[J];微型机与应用;2003年08期
3 杜保华,刘弹,侯成刚,徐光华;XML WebService在基于Web远程分析工具集中的应用[J];仪器仪表用户;2004年02期
4 严毅,唐天兵,宁葵;Web服务实现开放式的企业应用集成[J];广西大学学报(自然科学版);2005年03期
5 邵文田;;去除使用Web服务寻找适当的程序项目[J];电脑迷;2007年15期
6 宋平;;基于Web服务的企业应用集成[J];福建电脑;2007年10期
7 邹丹;;基于Web服务的医院信息管理系统的设计与实现[J];大众科技;2007年06期
8 彭玉华;;基于Web的学生信息管理系统的设计与实现[J];民营科技;2010年09期
9 陈波;师惠忠;;一种新型Web应用安全漏洞统一描述语言[J];小型微型计算机系统;2011年10期
10 ;借会献技——国际软件博览会中心议题web计算及应用[J];每周电脑报;1997年43期
中国重要会议论文全文数据库 前10条
1 刘正涛;毛宇光;应毅;;基于Web服务的分布式Web应用框架研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
2 戴琦;;Web上的数据挖掘[A];全国计算机网络应用年会论文集(2001)[C];2001年
3 王卫;;基于Web的数据库应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年
4 张默;廖湖声;杜金莲;;基于Web服务的开放式地理信息系统的研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年
6 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];2012年MIS/S&A学术交流会议论文集[C];2012年
7 李勤;;基于WEB的计算机模拟病例考试系统在全科医师培训实践能力测试中应用研究[A];2012年浙江省全科医学学术年会论文汇编[C];2012年
8 黄海林;孙向阳;;基于Web的大学物理试题管理系统的设计[A];湖北省物理学会、武汉物理学会成立70周年庆典暨2002年学术年会论文集[C];2002年
9 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年
10 李中华;;企业Web应用安全威胁与防护[A];创新·融合·发展——创新型煤炭企业发展与信息化高峰论坛论文集[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 刘继安;准备好了吗?WEB教师[N];中国教育报;2001年
2 张承东;Web智能考核广告[N];网络世界;2009年
3 科讯;WEB教师——一个全新职业的透析[N];科技日报;2001年
4 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年
5 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
6 居易;WEB教师热门起来[N];组织人事报;2001年
7 本报记者 赵晓涛;四问“Web防御与云安全”[N];网络世界;2008年
8 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年
9 电脑商报记者 张戈;Web应用安全正当时[N];电脑商报;2010年
10 李晨;Web应用安全应贯穿生命周期[N];人民邮电;2009年
中国博士学位论文全文数据库 前10条
1 万志远;Web应用程序漏洞检测关键技术研究[D];浙江大学;2014年
2 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年
3 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年
4 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
5 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
6 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
7 龙慧云;基于进程代数的Web服务数据和组合的形式化方法研究[D];贵州大学;2009年
8 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
9 谢琪;基于协同过滤与QoS的个性化Web服务推荐研究[D];重庆大学;2012年
10 刘方方;Web服务合成与可用性的若干关键技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 李林蓉;基于Restful和OSGI的Web应用转换容器的研究与实现[D];华南理工大学;2015年
2 陈彬彬;基于QoS随机性的Web服务质量偏离监测方法研究与实现[D];昆明理工大学;2015年
3 徐超;机顶盒中基于Web交互方式的设计与实现[D];西南交通大学;2015年
4 张锐;基于Web技术下的出差管理系统[D];西安工业大学;2015年
5 游维;基于Rest的Web业务系统日志采集与分析系统的研究与开发[D];山东大学;2015年
6 陶莹昌;基于Web的校园二手图书拍卖平台的设计与实现[D];西华师范大学;2015年
7 周赢;基于WEB的绩效管理系统的设计与实现[D];电子科技大学;2015年
8 宋平亮;基于MongoDB的航道数据Web服务研究[D];大连海事大学;2015年
9 汪洋;基于web的普通话新闻检索技术研究[D];电子科技大学;2014年
10 吴朝云;基于eyeOS的Web操作系统云存储研究[D];电子科技大学;2014年
,本文编号:730966
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/730966.html