文本语义特征检测及校对研究
发布时间:2021-10-23 23:33
随着新一代信息技术的快速发展和数据的爆炸式增长,人们对数据质量的追求达到了前所未有的高度。准确性是高质量数据的基本要求,如何提高准确性也是亟待解决的难题,各种“互联网+”应用中,对信息的语义表达都有着极高的规范化要求。然而,仅仅凭借人力难以胜任大数据量的规范性检查和处理,检查效果缺乏保障。如何高效准确地提取文本的语义特征并在此基础上进行文本校对的方法研究具有重要的理论意义和实用价值。通过分析大量的文本数据发现,文本中的组成单元是词语,而每个词语都有与之相对应的词义,词语间搭配关系的正确性取决于词义间搭配关系。基于此,本文提出文本语义特征检测及校对方法,通过研究词义之间潜在的关联性,设计合理的语义特征检测方法,构建语义搭配关系表示学习模型,主要工作如下:1)结合HowNet义原知识库与语料库,分析词语-语义之间的关系。使用神经网络学习词语-义原之间的潜在映射关系,将词语在语句中的结构化表达形式转换为抽象程度更高的义原表达形式,增强语句的语义表达能力,为语义搭配关系预测模块提供便于抽象化分析的信息。2)提出一种共享隐藏信息的双层长短时记忆网络模型,将其作为集成算法的子模型构建出语义级搭配关...
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
008-2018年我国网络用户规模及互联网普及率变化
1 绪论服务场景中来,随之而来的是互联网中信息量的剧烈增长。海量数据拥有巨大的挖掘价值,如何科学合理地利用这些数据信息显得尤为重要。截止至 2018 年 12 月,我国 10-39 岁人群已占整体网民数量的 67.8%,网络新闻用户规模稳定增长,网络新闻领域相关法律法规建设也日益健全,传统新闻媒体受到互联网影响,已经进入了全新的发展阶段。结合图 1.2 可以看出,中国网民对网络新闻软件的使用率略有下降,而用户量却保持增长,截止到 2018 年 12 月,我国网络新闻用户规模已达到 6.75 亿,同比增长率为 4.3%,而网络新闻用户占总网民数量的百分比下降 2.4%。用户除了需要通过网络新闻了解最新资讯信息以外,还新增了评论、社交、分享等需求,新闻客户端早已呈现出标签主题订阅、场景化、碎片化、内容聚合等功能化的发展趋势[2],互联网新闻领域的数据规模和传播范围可见一斑,因此对文档自动检测及校对方法的研究有重要的意义。
图 1.3 2017.12-2018.12 各行政级别政府网站首页文章更新量随着互联网用户基数的增加,数据量也发生了爆炸式的增长,人们已从网络中获取信息和知识,而发布者难以对海量的信息加以精确的校不仅会影响到用户的阅读体验,更有可能会对社会舆论造成恶劣影响 20 世纪 90 年代美国时任总统克林顿访华之际,某报刊将“克林顿访成“克林顿反华”,这样的内容会引起读者的不解,甚至引起外交风息发布者自身也会造成难以估量的损失。面对海量的数据,能够快速
【参考文献】:
期刊论文
[1]中文词语搭配特征提取及文本校对研究[J]. 陶永才,海朝阳,石磊,卫琳. 小型微型计算机系统. 2018(11)
[2]中文“非多字词错误”自动校对方法研究[J]. 刘亮亮,曹存根. 计算机科学. 2016(10)
[3]中文文本语义错误侦测方法研究[J]. 张仰森,郑佳. 计算机学报. 2017(04)
[4]基于知网与词林的词语语义相似度计算[J]. 朱新华,马润聪,孙柳,陈宏朝. 中文信息学报. 2016(04)
[5]Minimal Gated Unit for Recurrent Neural Networks[J]. Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou. International Journal of Automation and Computing. 2016(03)
[6]基于语义分析的评价对象-情感词对抽取[J]. 江腾蛟,万常选,刘德喜,刘喜平,廖国琼. 计算机学报. 2017(03)
[7]领域问答系统中的文本错误自动发现方法[J]. 刘亮亮,王石,王东升,汪平仄,曹存根. 中文信息学报. 2013(03)
[8]模糊匹配中的匹配度计算方法[J]. 李红明,秦贵和,郝勃,冀进朝. 计算机工程. 2010(06)
[9]基于HNC的中文文本校对系统模型的研究[J]. 程显毅,孙萍,朱倩. 微电子学与计算机. 2009(10)
[10]试论“语义搭配的可能性”[J]. 尹邦才. 理论观察. 2008(06)
硕士论文
[1]基于时间因素的个性化新闻混合推荐研究[D]. 火昊.郑州大学 2018
本文编号:3454134
【文章来源】:郑州大学河南省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
008-2018年我国网络用户规模及互联网普及率变化
1 绪论服务场景中来,随之而来的是互联网中信息量的剧烈增长。海量数据拥有巨大的挖掘价值,如何科学合理地利用这些数据信息显得尤为重要。截止至 2018 年 12 月,我国 10-39 岁人群已占整体网民数量的 67.8%,网络新闻用户规模稳定增长,网络新闻领域相关法律法规建设也日益健全,传统新闻媒体受到互联网影响,已经进入了全新的发展阶段。结合图 1.2 可以看出,中国网民对网络新闻软件的使用率略有下降,而用户量却保持增长,截止到 2018 年 12 月,我国网络新闻用户规模已达到 6.75 亿,同比增长率为 4.3%,而网络新闻用户占总网民数量的百分比下降 2.4%。用户除了需要通过网络新闻了解最新资讯信息以外,还新增了评论、社交、分享等需求,新闻客户端早已呈现出标签主题订阅、场景化、碎片化、内容聚合等功能化的发展趋势[2],互联网新闻领域的数据规模和传播范围可见一斑,因此对文档自动检测及校对方法的研究有重要的意义。
图 1.3 2017.12-2018.12 各行政级别政府网站首页文章更新量随着互联网用户基数的增加,数据量也发生了爆炸式的增长,人们已从网络中获取信息和知识,而发布者难以对海量的信息加以精确的校不仅会影响到用户的阅读体验,更有可能会对社会舆论造成恶劣影响 20 世纪 90 年代美国时任总统克林顿访华之际,某报刊将“克林顿访成“克林顿反华”,这样的内容会引起读者的不解,甚至引起外交风息发布者自身也会造成难以估量的损失。面对海量的数据,能够快速
【参考文献】:
期刊论文
[1]中文词语搭配特征提取及文本校对研究[J]. 陶永才,海朝阳,石磊,卫琳. 小型微型计算机系统. 2018(11)
[2]中文“非多字词错误”自动校对方法研究[J]. 刘亮亮,曹存根. 计算机科学. 2016(10)
[3]中文文本语义错误侦测方法研究[J]. 张仰森,郑佳. 计算机学报. 2017(04)
[4]基于知网与词林的词语语义相似度计算[J]. 朱新华,马润聪,孙柳,陈宏朝. 中文信息学报. 2016(04)
[5]Minimal Gated Unit for Recurrent Neural Networks[J]. Guo-Bing Zhou,Jianxin Wu,Chen-Lin Zhang,Zhi-Hua Zhou. International Journal of Automation and Computing. 2016(03)
[6]基于语义分析的评价对象-情感词对抽取[J]. 江腾蛟,万常选,刘德喜,刘喜平,廖国琼. 计算机学报. 2017(03)
[7]领域问答系统中的文本错误自动发现方法[J]. 刘亮亮,王石,王东升,汪平仄,曹存根. 中文信息学报. 2013(03)
[8]模糊匹配中的匹配度计算方法[J]. 李红明,秦贵和,郝勃,冀进朝. 计算机工程. 2010(06)
[9]基于HNC的中文文本校对系统模型的研究[J]. 程显毅,孙萍,朱倩. 微电子学与计算机. 2009(10)
[10]试论“语义搭配的可能性”[J]. 尹邦才. 理论观察. 2008(06)
硕士论文
[1]基于时间因素的个性化新闻混合推荐研究[D]. 火昊.郑州大学 2018
本文编号:3454134
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3454134.html
最近更新
教材专著