短文本信息抽取若干技术研究
本文关键词: 信息抽取 短文本 微博事件抽取 5W1H 情感分析 商品评论 情感词扩充 出处:《中国科学技术大学》2016年博士论文 论文类型:学位论文
【摘要】:随着信息技术的发展,互联网已经渗透到人们生活中的各个角落,成为人们生活中不可缺少的一部分。互联网的飞速发展带来了各种各样数量巨大的信息,这些信息正以爆炸式的速度增长.如何有效地获取、保存和利用这些信息是现在大数据时代的重要课题。在互联网海量信息中,用户在各种社交网络平台中发布的信息增长尤为迅速,这些社交网络中的信息文本较短、用户语言较为随意、文本语法性较差,我们将其统称为“短文本气具有代表性的短文本有微博、商品评论、BBS论坛发言等。短文本的出现给传统的Web信息抽取工作带来了许多机遇和挑战。由于社交网络中的短文本信息最大、信息维度广,使得一些在短文本中的信息抽取任务非常有价值,这些任务包括事件检测和事件分析、情感分析、知识图谱挖掘等。然而短文本的文本特性给在短文本中的信息抽取工作带来了困难和挑战,如何有效地在短文本中进行信息抽取也成为了一个研究热点。本文针对短文本信息抽取中的几个关键问题,即微博事件抽取、微博事件语义元素抽取和商品评论情感分析展开研究。微博事件抽取旨在从微博数据中抽取出用户所需要的事件。微博平台庞大的用户群体带来了数据量巨大的微博文本,这些微博文本中包含着许许多多事件信息,这使得微博在对事件的报道上比传统新闻媒体更具优势。如何有效地从微博中抽取出相关事件也成为了一项有意义的研究工作。对于抽取出的微博事件,如何为这些事件寻找一种完整且直观的表达方式也是一个重要的课题。本文使用新闻学中事件的语义元素5W1 H(When, Where, Who, What, Whom和How)对抽取出的微博事件进行表达。事件的5W1 H语义元素对于完整地描述一个微博事件非常有帮助,如何在语言较为随意的微博文本中抽取事件的语义元素也是一项有价值的工作。商品评论情感分析旨在于抽取用户在商品评论中表现出的情感倾向性。在电子商务发展迅猛的今天,网上购物已经成为许多人购物时的首选。通过对用户商品评论的情感倾向性进行有效挖掘,不仅能够方便用户做出购买决策,还能使商家更好地完善商品,提升销量。本文针对以上几个短文本信息抽取中的研究问题提出了一系列解决方法,本文的主要贡献可以总结为如下几点:1.对于微博事件抽取问题,由于命名实体信息是一个事件的重要组成部分.对于不同类型的事件,事件文本中不同类型的命名实体分布也不相同,因此将命名实体信息加入到事件抽取的过程中,可以提升抽取的效果。本文将事件的类型定义为事件中不同类型命名实体的概率分布。通过提出一种基于机器学习的方法,自动抽取事件微博文本中的事件类型。通过文本聚类的方法抽取微博事件,在聚类的过程中,通过加入抽取出的事件类型信息,提升了聚类的效果。2.针对已有的对微博事件的表达方式不能完整地描述一个事件的问题,本文使用事件语义元素5W1H对事件进行表达。由于微博的文本特点,传统在Web网页上抽取事件语义元素的方法在微博文本中效果较差,因此本文提出了新的方法对徽博事件语义元素进行抽取。对于When和Where元素,本文提出了一种基于粒度的自粗向细的抽取方法,该方法考虑了不同粒度上的时间/地理信息,通过粒度上自粗向细的逐层抽取方法提升了抽取效果。对于Who、What和Whom元素,本文提出了一种词语聚类和链接的方法。该方法通过将不同句子成分中的词语进行聚类使得对同一实体的不同表达被聚类在相同的词语簇中,再利用不同句子成分中词语的共现关系将词语簇进行链接,得到事件语义元素。这种方法较为有效地解决了事件微博簇中对于同一实体存在不同表达方式的问题,因此提升了事件语义元素的抽取效果。3.对于商品评论情感分析问题.由于在一条评论文本中用户对于商品的不同维度可能存在不同的情感倾向性,传统基于句子、篇章等的情感分析方法并不适用。为此本文提出了一个多维度商品评论情感分析的方法框架,旨在于抽取用户对不同商品维度的情感倾向性。在该方法中,对于一个初始的商品评论长句,本文提出使用基于卷积神经网络的方法对句子进行切分。经过切分后的每个短句中只包含用户对最多一个商品维度的评价。对于每个短句.本文使用文本和维度关键词之间的相关性将其与一个商品维度建立映射关系,并最后在该商品维度下进行情感分类。针对情感分析中相同的情感词在不同的商品维度下表现出的情感极性可能不同的问题,本文使用半自动的方法为每个商品维度构建了维度情感词典,通过使用维度情感词典,情感分析的效果得到了提升。本文的研究较好地缓解了短文本用户语言较为随意、语法不规范等问题对传统信息抽取工作带来的影响。论文提出了微博事件类型抽取算法、基于事件类型的微博事件抽取方法、微博事件5W1H语义元素抽取算法、多维度商品评论情感分析方法等一系列新的设计,并在真实数据集上验证了所有算法的有效性,为今后信息抽取技术在短文本上的应用提供了参考。
[Abstract]:......
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
相关硕士学位论文 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1537027
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1537027.html