基于AMR的社交短文本质量评估研究

发布时间:2021-09-15 07:24
  随着互联网的迅速发展及其应用的快速普及,微博、微信朋友圈、QQ动态等社交平台由其内容简洁通俗、发布便捷及时、方便用户交流等特点吸引了越来越多网民的关注,成为抒发情感与表达观点的重要平台。但发布门槛的降低也导致了信息泛滥,很多网民随意创作,无论是词语选取、句法结构还是内容的表达都参差不齐,给信息的获取带来极大困扰,人工筛选与标注是不现实的,因此需要一种自动化社交短文本质量评估与筛选方法。社交短文本的流行使得网络中充斥着大量文法混乱语义不清的句子,为此,本文提出一种将句法结构和修饰语义相结合的社交短文本质量评估算法。为了方便该方法的分析,利用抽象语义表示(Abstract Meaning Representation,AMR)的PENMAN树形式充分研究文本内容的句法结构完整性与修饰语义紧密程度。现有的中文AMR解析算法准确率较低,且未考虑概念节点的连接对其解析结果的影响,若详细分析所有节点关系,会存在一个节点被多次访问的情况,使其无法确定最终解析操作。本文根据汉语句法中谓词的重要性,提出通过分析谓词间关系改进基于转换的中文AMR解析器PR-CAMR(Predicate Relation-... 

【文章来源】:内蒙古科技大学内蒙古自治区

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

基于AMR的社交短文本质量评估研究


中国互联网络发展状况统计调查随着科技的发展与网络的大规模普及,各种各样的互联网应用软件也逐渐增多,如

内容,文本


内蒙古科技大学硕士学位论文-2-微博平台最初发布的文本在字数上一般限制为140字以内的短文本,其内容由文字与非文字两部分组成,非文字主要包含微博内设的动画表情或用户想发布的图片与视频。由于微博文本发布的快捷性与内容更新的及时性,对发布的文本并不存在完善的句法规范性检查。面对庞大的用户规模,使得微博平台每天产生海量的数据。同时,微博平台的实时性使其在快节奏的生活中更加方便,满足了用户在“碎片化时间”内的各种需求,为广大用户的空闲时间增添乐趣。随着微博平台的不断改进与更新,简化操作满足用户需求,吸引越来越多人的加入。微博平台为学术界提供部分用户所发布的微博内容,通过这些数据进行研究。例如新闻话题检测[1]、舆情识别及分析[2]。对个人微博进行主题挖掘[3]、情感分析和特征抽取[4]等。但在微博内容中存在大量结构混乱语义模糊的低质量文本,这些信息即增大数据处理的难度也会影响结果的准确性,在研究时应先对微博数据进行筛眩为了有效的选取微博数据,首先要对微博内容仔细分析,以图1.2与图1.3的微博内容为例,从图中微博文本内容的对比可以看出,高质量文本可以准确获取所需信息,降低语义的模糊与歧义性。本文主要是对微博用户的微博内容进行研究,从而准确的分析社交短文本质量。在分析过程中不是简单考虑文本内容长短,而是根据文本的句法结构,表达内容的修饰情况与传递信息量的多少,得出准确的质量等级。图1.2第一例微博内容图1.3第二例微博内容

内容,文本


内蒙古科技大学硕士学位论文-2-微博平台最初发布的文本在字数上一般限制为140字以内的短文本,其内容由文字与非文字两部分组成,非文字主要包含微博内设的动画表情或用户想发布的图片与视频。由于微博文本发布的快捷性与内容更新的及时性,对发布的文本并不存在完善的句法规范性检查。面对庞大的用户规模,使得微博平台每天产生海量的数据。同时,微博平台的实时性使其在快节奏的生活中更加方便,满足了用户在“碎片化时间”内的各种需求,为广大用户的空闲时间增添乐趣。随着微博平台的不断改进与更新,简化操作满足用户需求,吸引越来越多人的加入。微博平台为学术界提供部分用户所发布的微博内容,通过这些数据进行研究。例如新闻话题检测[1]、舆情识别及分析[2]。对个人微博进行主题挖掘[3]、情感分析和特征抽取[4]等。但在微博内容中存在大量结构混乱语义模糊的低质量文本,这些信息即增大数据处理的难度也会影响结果的准确性,在研究时应先对微博数据进行筛眩为了有效的选取微博数据,首先要对微博内容仔细分析,以图1.2与图1.3的微博内容为例,从图中微博文本内容的对比可以看出,高质量文本可以准确获取所需信息,降低语义的模糊与歧义性。本文主要是对微博用户的微博内容进行研究,从而准确的分析社交短文本质量。在分析过程中不是简单考虑文本内容长短,而是根据文本的句法结构,表达内容的修饰情况与传递信息量的多少,得出准确的质量等级。图1.2第一例微博内容图1.3第二例微博内容

【参考文献】:
期刊论文
[1]基于转移神经网络的中文AMR解析[J]. 吴泰中,顾敏,周俊生,曲维光,李斌,顾彦慧.  中文信息学报. 2019(04)
[2]主题特征格分析:一种用户生成文本质量评估方法[J]. 钟将,张淑芳,郭卫丽,李雪.  电子学报. 2018(09)
[3]基于句式与句模对应规则的语义角色标注[J]. 何保荣,邱立坤,孙盼盼.  中文信息学报. 2018(04)
[4]融合概念对齐信息的中文AMR语料库的构建[J]. 李斌,闻媛,宋丽,卜丽君,曲维光,薛念文.  中文信息学报. 2017(06)
[5]英汉《小王子》抽象语义图结构的对比分析[J]. 李斌,闻媛,卜丽君,曲维光,薛念文.  中文信息学报. 2017(01)
[6]自然语言句子抽象语义表示AMR研究综述[J]. 曲维光,周俊生,吴晓东,戴茹冰,顾敏,顾彦慧.  数据采集与处理. 2017(01)
[7]一种中文微博新闻话题检测的方法[J]. 郑斐然,苗夺谦,张志飞,高灿.  计算机科学. 2012(01)
[8]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松.  中文信息学报. 2012(01)
[9]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群.  计算机研究与发展. 2011(10)
[10]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云.  清华大学学报(自然科学版). 2011(10)

硕士论文
[1]面向微博的文本质量评估与分类技术研究与实现[D]. 陈铭.国防科学技术大学 2015



本文编号:3395652

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3395652.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8215c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com