当前位置:主页 > 科技论文 > 搜索引擎论文 >

客户负面新闻自动检索方法的研究与应用

发布时间:2017-06-19 12:02

  本文关键词:客户负面新闻自动检索方法的研究与应用,由笔耕文化传播整理发布。


【摘要】:金融机构的风险评估部门通常需要利用互联网搜索引擎,在网络上搜索自己所关注客户的负面新闻报道,以便尽早发现风险,为风险评估部门做出决策提供有益的辅助信息。手工方法完成这项工作效率低、工作量大。负面新闻属于情感文本,研究针对互联网情感文本的自动检索及识别,具有重要意义和实用价值。 本文在深入研究当今情感倾向性识别技术的基础上,提出了两个算法:1)基于倾向词搭配的情感倾向性识别(Emotional Tendentiousness Recognition based on Tendency Word Collocation, ETRTWC)算法;2)基于语境框架的负面新闻抽取(Negative News Extraction based on Context Framework, NNECF)算法。使用ETRTWC算法判断客户新闻的情感倾向性,将新闻分成正面、中立和负面三类,并得出客户综合打分结果;使用NNECF算法从新闻集中抽取负面新闻,并与ETRTWC算法识别出的负面情感类新闻取交集,共同抽取负面新闻集。本文的主要工作和贡献如下: 1.提出两种情感及负面新闻识别算法,即ETRTWC算法和NNECF算法。ETRTWC算法从情感倾向词着手,提出给单个倾向词分配四个属性,然后通过依存句法结合打分规则得出整个句子的情感值,最后得出整篇新闻的情感值。NNECF算法针对每个单一语境负面新闻集合来定义语境框架,通过构建语境框架库和框架词汇层次库,结合相应的中文自然语言处理技术和对数线性模型理论,判断待识别的句子是否属于某一框架,进而判定其是否是负面新闻。 2.设计并实现了一套客户负面新闻自动检索系统(Customer Negative News Retrieval System Automatically,CNNRSA)。该系统采用B/S架构,以本文提出的负面新闻识别算法为核心,并利用复旦大学自然语言处理系统(FNLP)进行中文句子分词处理、词性标注和句子依存关系分析。CNNRSA具有互联网新闻抓取、新闻情感初步分类、负面新闻抽取,以及新闻入库、查询和检索等主要功能模块。 3.对ETRTW C算法和NNECF算法进行测试,验证了算法的有效性;以“诺基亚”为客户关键词对系统进行了测试,验证了系统的可用性和有效性。CNNRSA主要模块开发现已基本完成,系统可正常运行。
【关键词】:互联网新闻 情感倾向性识别 语境框架 倾向词搭配 依存句法
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-8
  • 目录8-11
  • 第1章 绪论11-17
  • 1.1 课题研究背景及意义11
  • 1.2 客户负面新闻自动检索的研究现状11-15
  • 1.2.1 新闻自动检索系统12-13
  • 1.2.2 文本情感分析研究现状13-15
  • 1.3 本文主要研究内容15-16
  • 1.4 论文章节安排16-17
  • 第2章 相关理论与技术概述17-29
  • 2.1 中文词语切分技术17-18
  • 2.1.1 基于字符串匹配的分词方法17-18
  • 2.1.2 基于统计的分词方法18
  • 2.2 词性标注技术18-22
  • 2.2.1 词性标注集19-20
  • 2.2.2 统计语言模型20-22
  • 2.3 依存句法分析技术22-24
  • 2.3.1 依存句法分析22-23
  • 2.3.2 基于图的依存句法分析23-24
  • 2.4 对数线性建模技术24-26
  • 2.4.1 对数线性模型定义24
  • 2.4.2 模型的特征24-25
  • 2.4.3 对数线性模型标准格式25-26
  • 2.5 复旦大学自然语言处理系统26-28
  • 2.5.1 FNLP系统的组织结构26
  • 2.5.2 FNLP系统的Java包组织结构26-27
  • 2.5.3 FNLP系统总体执行流程27-28
  • 2.6 本章小结28-29
  • 第3章 文本情感分析算法设计29-41
  • 3.1 ETRTWC算法设计29-35
  • 3.1.1 倾向词及其数据结构29-30
  • 3.1.2 依存句法分析30-32
  • 3.1.3 关键句群提取32
  • 3.1.4 ETRTWC算法32-35
  • 3.1.5 算法时间复杂度35
  • 3.2 NNECF算法设计35-40
  • 3.2.1 负面情感语境框架35-36
  • 3.2.2 NECFrame识别器36-38
  • 3.2.3 NNECF算法38-40
  • 3.2.4 算法时间复杂度40
  • 3.3 本章小结40-41
  • 第4章 客户负面新闻自动检索系统(CNNRSA)设计41-51
  • 4.1 系统需求分析41-42
  • 4.1.1 功能需求41
  • 4.1.2 质量需求41-42
  • 4.2 系统概念设计42
  • 4.3 系统总体设计42-50
  • 4.3.1 系统模块结构42-43
  • 4.3.2 系统模块功能说明43-46
  • 4.3.3 系统采用的技术架构46-47
  • 4.3.4 数据库设计47-49
  • 4.3.5 框架词汇层次管理子系统设计49
  • 4.3.6 系统开发工具及运行环境49-50
  • 4.4 本章小结50-51
  • 第5章 客户负面新闻自动检索系统(CNNRSA)实现51-61
  • 5.1 CNNRSA前端页面实现51-54
  • 5.2 新闻自动抓取与预处理实现54-56
  • 5.3 中文分词、词性标注和依存句法分析实现56-57
  • 5.4 ETRTWC算法实现57-58
  • 5.5 NNECF算法实现58-59
  • 5.6 框架词汇层次管理子系统的实现59-60
  • 5.7 本章小结60-61
  • 第6章 CNNRSA测试与验证61-73
  • 6.1 测试语料和算法评估指标61
  • 6.2 ETRTWC算法测试61-64
  • 6.3 NNECF算法测试64-67
  • 6.3.1 语境框架库的构建64-66
  • 6.3.2 情感识别测试66-67
  • 6.4 ETRTWC算法与NNECF算法协同测试67-69
  • 6.5 CNNRSA功能测试与验证69-72
  • 6.5.1 客户综合打分验证69-70
  • 6.5.2 新闻离线查看与在线浏览验证70-71
  • 6.5.3 客户负面新闻抽取验证71-72
  • 6.6 本章小结72-73
  • 第7章 总结与展望73-75
  • 7.1 本文工作总结73-74
  • 7.2 下一步工作展望74-75
  • 参考文献75-79
  • 致谢79-81
  • 在读期间发表的学术论文与取得的研究成果81

【参考文献】

中国期刊全文数据库 前8条

1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

2 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期

3 姜维;关毅;王晓龙;;基于条件随机域的词性标注模型[J];计算机工程与应用;2006年21期

4 刘全超;黄河燕;冯冲;;基于多特征微博话题情感倾向性判定算法研究[J];中文信息学报;2014年04期

5 赵妍妍;秦兵;刘挺;;文本情感分析[J];软件学报;2010年08期

6 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期

7 彭敏;汪清;黄济民;周李;胡鑫汇;;基于情感分析技术的股票研究报告分类[J];武汉大学学报(理学版);2015年02期

8 汪卫明;陈世鸿;王世同;刘文印;;基于语义模板的医学问答自动生成[J];武汉大学学报(理学版);2009年02期

中国博士学位论文全文数据库 前1条

1 李正华;汉语依存句法分析关键技术研究[D];哈尔滨工业大学;2013年


  本文关键词:客户负面新闻自动检索方法的研究与应用,由笔耕文化传播整理发布。



本文编号:462411

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/462411.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50bfb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com