客户负面新闻自动检索方法的研究与应用
发布时间:2017-06-19 12:02
本文关键词:客户负面新闻自动检索方法的研究与应用,由笔耕文化传播整理发布。
【摘要】:金融机构的风险评估部门通常需要利用互联网搜索引擎,在网络上搜索自己所关注客户的负面新闻报道,以便尽早发现风险,为风险评估部门做出决策提供有益的辅助信息。手工方法完成这项工作效率低、工作量大。负面新闻属于情感文本,研究针对互联网情感文本的自动检索及识别,具有重要意义和实用价值。 本文在深入研究当今情感倾向性识别技术的基础上,提出了两个算法:1)基于倾向词搭配的情感倾向性识别(Emotional Tendentiousness Recognition based on Tendency Word Collocation, ETRTWC)算法;2)基于语境框架的负面新闻抽取(Negative News Extraction based on Context Framework, NNECF)算法。使用ETRTWC算法判断客户新闻的情感倾向性,将新闻分成正面、中立和负面三类,并得出客户综合打分结果;使用NNECF算法从新闻集中抽取负面新闻,并与ETRTWC算法识别出的负面情感类新闻取交集,共同抽取负面新闻集。本文的主要工作和贡献如下: 1.提出两种情感及负面新闻识别算法,即ETRTWC算法和NNECF算法。ETRTWC算法从情感倾向词着手,提出给单个倾向词分配四个属性,然后通过依存句法结合打分规则得出整个句子的情感值,最后得出整篇新闻的情感值。NNECF算法针对每个单一语境负面新闻集合来定义语境框架,通过构建语境框架库和框架词汇层次库,结合相应的中文自然语言处理技术和对数线性模型理论,判断待识别的句子是否属于某一框架,进而判定其是否是负面新闻。 2.设计并实现了一套客户负面新闻自动检索系统(Customer Negative News Retrieval System Automatically,CNNRSA)。该系统采用B/S架构,以本文提出的负面新闻识别算法为核心,并利用复旦大学自然语言处理系统(FNLP)进行中文句子分词处理、词性标注和句子依存关系分析。CNNRSA具有互联网新闻抓取、新闻情感初步分类、负面新闻抽取,以及新闻入库、查询和检索等主要功能模块。 3.对ETRTW C算法和NNECF算法进行测试,验证了算法的有效性;以“诺基亚”为客户关键词对系统进行了测试,验证了系统的可用性和有效性。CNNRSA主要模块开发现已基本完成,系统可正常运行。
【关键词】:互联网新闻 情感倾向性识别 语境框架 倾向词搭配 依存句法
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-8
- 目录8-11
- 第1章 绪论11-17
- 1.1 课题研究背景及意义11
- 1.2 客户负面新闻自动检索的研究现状11-15
- 1.2.1 新闻自动检索系统12-13
- 1.2.2 文本情感分析研究现状13-15
- 1.3 本文主要研究内容15-16
- 1.4 论文章节安排16-17
- 第2章 相关理论与技术概述17-29
- 2.1 中文词语切分技术17-18
- 2.1.1 基于字符串匹配的分词方法17-18
- 2.1.2 基于统计的分词方法18
- 2.2 词性标注技术18-22
- 2.2.1 词性标注集19-20
- 2.2.2 统计语言模型20-22
- 2.3 依存句法分析技术22-24
- 2.3.1 依存句法分析22-23
- 2.3.2 基于图的依存句法分析23-24
- 2.4 对数线性建模技术24-26
- 2.4.1 对数线性模型定义24
- 2.4.2 模型的特征24-25
- 2.4.3 对数线性模型标准格式25-26
- 2.5 复旦大学自然语言处理系统26-28
- 2.5.1 FNLP系统的组织结构26
- 2.5.2 FNLP系统的Java包组织结构26-27
- 2.5.3 FNLP系统总体执行流程27-28
- 2.6 本章小结28-29
- 第3章 文本情感分析算法设计29-41
- 3.1 ETRTWC算法设计29-35
- 3.1.1 倾向词及其数据结构29-30
- 3.1.2 依存句法分析30-32
- 3.1.3 关键句群提取32
- 3.1.4 ETRTWC算法32-35
- 3.1.5 算法时间复杂度35
- 3.2 NNECF算法设计35-40
- 3.2.1 负面情感语境框架35-36
- 3.2.2 NECFrame识别器36-38
- 3.2.3 NNECF算法38-40
- 3.2.4 算法时间复杂度40
- 3.3 本章小结40-41
- 第4章 客户负面新闻自动检索系统(CNNRSA)设计41-51
- 4.1 系统需求分析41-42
- 4.1.1 功能需求41
- 4.1.2 质量需求41-42
- 4.2 系统概念设计42
- 4.3 系统总体设计42-50
- 4.3.1 系统模块结构42-43
- 4.3.2 系统模块功能说明43-46
- 4.3.3 系统采用的技术架构46-47
- 4.3.4 数据库设计47-49
- 4.3.5 框架词汇层次管理子系统设计49
- 4.3.6 系统开发工具及运行环境49-50
- 4.4 本章小结50-51
- 第5章 客户负面新闻自动检索系统(CNNRSA)实现51-61
- 5.1 CNNRSA前端页面实现51-54
- 5.2 新闻自动抓取与预处理实现54-56
- 5.3 中文分词、词性标注和依存句法分析实现56-57
- 5.4 ETRTWC算法实现57-58
- 5.5 NNECF算法实现58-59
- 5.6 框架词汇层次管理子系统的实现59-60
- 5.7 本章小结60-61
- 第6章 CNNRSA测试与验证61-73
- 6.1 测试语料和算法评估指标61
- 6.2 ETRTWC算法测试61-64
- 6.3 NNECF算法测试64-67
- 6.3.1 语境框架库的构建64-66
- 6.3.2 情感识别测试66-67
- 6.4 ETRTWC算法与NNECF算法协同测试67-69
- 6.5 CNNRSA功能测试与验证69-72
- 6.5.1 客户综合打分验证69-70
- 6.5.2 新闻离线查看与在线浏览验证70-71
- 6.5.3 客户负面新闻抽取验证71-72
- 6.6 本章小结72-73
- 第7章 总结与展望73-75
- 7.1 本文工作总结73-74
- 7.2 下一步工作展望74-75
- 参考文献75-79
- 致谢79-81
- 在读期间发表的学术论文与取得的研究成果81
【参考文献】
中国期刊全文数据库 前8条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
3 姜维;关毅;王晓龙;;基于条件随机域的词性标注模型[J];计算机工程与应用;2006年21期
4 刘全超;黄河燕;冯冲;;基于多特征微博话题情感倾向性判定算法研究[J];中文信息学报;2014年04期
5 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期
6 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
7 彭敏;汪清;黄济民;周李;胡鑫汇;;基于情感分析技术的股票研究报告分类[J];武汉大学学报(理学版);2015年02期
8 汪卫明;陈世鸿;王世同;刘文印;;基于语义模板的医学问答自动生成[J];武汉大学学报(理学版);2009年02期
中国博士学位论文全文数据库 前1条
1 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年
本文关键词:客户负面新闻自动检索方法的研究与应用,由笔耕文化传播整理发布。
,本文编号:462411
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/462411.html