当前位置:主页 > 经济论文 > 电子商务论文 >

基于电商领域的中文产品兼类词的切分与识别研究

发布时间:2019-07-23 19:50
【摘要】:随着互联网应用的蓬勃发展和相关技术日新月异的提升,线上线下支付场景的一体化融合,整个网络支付行业在短短几年间,交易规模呈现奔涌式的增长。电商购物涉及到的是电商门户网站和电商移动应用,因此不管使用哪种媒介购物都会涉及到产品搜索。而在电商领域的产品搜索中往往更多表现为兼类词的切分不准确,常常出现形容词和名词的混淆等问题,所以如何准确的识别和切分成为了非常关键的因素,影响着文字信息处理的结果,进而关乎用户线上或线下购物时的消费体验,较差的购物体验将会引起用户粘性降低而导致客户流失。本文在对传统中文自动分词技术的研究和比较基础上,采用改进后的全局最优化模型—条件随机场来进行电商领域中文产品兼类词的切分和识别。由于传统中文词领域和电子商务领域所取材的语料特征不同,距离依赖的长短不同,基于条件随机场模型的常用特征模板并不适用于电商领域。本文在研究中注重从二个方面着手,—是考虑了词与词之间的相对独立性并添加了电子商务领域独有的特征,二是充分利用特征模板的距离依赖近似于正态分布的基本规律,发现在最优模板处取得的极值为函数最优解,提出了适合电商领域的特征项及特征模板。综上,本文主要研究内容是利用电商领域中文产品词的特征,提出一种有效使用改进后的条件随机场模型以及适用于电商领域的特征项及特征模板的方法来切分和识别中文产品兼类词。实验结果显示我们所提出的方法显著地提高了电商领域中文产品词识别的精确率,尤其是中文产品兼类词的形容词形式,因而减少了因分词不准确而引起的误解以及提升了用户在购物时的搜索体验。
【图文】:

图2.邋2最大楠马尔科夫模型逡逑


逦\0.:逡逑状态邋5逦0逦No逦\0逦\0逡逑图2.邋3标注偏置问题逡逑如图2.邋3所显示的概率,状态1更可能转移到状态2,,而状态2则更可能停滞于状逡逑态2,但是经计算得出:逡逑P(1^2->1邋一邋2)邋=邋0.6*0.2*0.5=邋0.06逦P(1邋一1邋一邋1-?1)邋=邋0.4*0.45*0.5=邋0.09逡逑?口一2一2^2)邋=邋0'2*0'3*0'3=0'018?9->1^2^2)邋=邋0.4*0'巧*0'3=0'066逡逑很明显1^1邋一邋1^1的这条路径是最佳选择,会造成这种原因是因为状态1可选择逡逑的转移状态比状态2少,状态I就更可能转移到状态2,而状态2则更可能停滞于状态逡逑2,所W标注偏置问题就是最大贿马尔科夫模型在概率转移的时候,会更多偏向于选择逡逑面较少的状态。逦?逡逑2.邋5本章小结逡逑本章首先对五种中文分词算法进行了初步描述和对各自的利弊做了分析,然后针对逡逑中文分词中的难点分别对歧义问题和未登录词问题进行分析,最后分别对隐马尔科夫模逡逑12逡逑

图4.邋3对比实验A结果图逡逑对比实验B;逡逑


图4.邋3对比实验A结果图逡逑对比实验B;逡逑之前的对比实验A证明了条件随机场模型得到的识别结果更优于另外两个统:隐马尔科夫模型和最大[ 马尔科夫模型。如表4.4和圈4.4所示:①当改进特
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前7条

1 王鸿善;;“凭空造出“一剂良策””——关于词语搭配和兼类词[J];机电兵船档案;1999年01期

2 李华栋;贾真;尹红风;杨燕;;基于规则的汉语兼类词标注方法[J];计算机应用;2014年08期

3 蒋凯;刘欣亮;王平;韩飞;;一种基于粗糙集的兼类词词性自动校对方法[J];软件导刊;2014年09期

4 冯志伟;英日机器翻译系统E-to-J原语分析中的兼类词消歧策略[J];中文信息学报;1999年05期

5 黄德根,张丽静,张艳丽,杨元生;规则与统计相结合的兼类词处理机制[J];小型微型计算机系统;2003年07期

6 赵铁军,毛成江,张民,李生;CEMT—Ⅲ系统中汉语兼类问题的处理[J];中文信息学报;1993年04期

7 ;[J];;年期

相关会议论文 前7条

1 王洁;荀恩东;宋柔;;兼类词排歧的一种方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

2 俞士汶;段慧明;朱学锋;;语言工程中同形及兼类词语的处理策略[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

3 张亚旭;刘友谊;舒华;王黎;;汉语句子中双音节兼类词句法分析历程初探[A];第九届全国心理学学术会议文摘选集[C];2001年

4 范潇潇;;甲级词中的兼类词在对外汉语教材中的分布情况分析——以《汉语教程》为例[A];北京地区对外汉语教学研究生论坛论文集[C];2013年

5 陈桂成;;说“像”及“似的、一样、一般”[A];福建省辞书学会2003年会论文集[C];2003年

6 刘涛;杨亦鸣;赵仑;;现代汉语动名兼类词认知的ERP研究[A];2005年中国神经心理学学术会议论文集[C];2005年

7 姜自霞;陈晓;李玉梅;靳光瑾;黄昌宁;;试论区别词的词性鉴别能力[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

相关重要报纸文章 前1条

1 驻马店高级中学 李继新;文言文断句技巧解析[N];驻马店日报;2011年

相关博士学位论文 前3条

1 李允善;基于中韩平行语料库的《红楼梦》动介兼类词研究[D];山东大学;2014年

2 屈刚;英汉双语短语对齐[D];上海交通大学;2007年

3 夏全胜;汉语名词、动词和动名兼类词语义加工的ERP研究[D];南开大学;2012年

相关硕士学位论文 前10条

1 张纪红;对外汉语教学中副区兼类词研究[D];安徽大学;2014年

2 李洁;从《现代汉语词典》版本的更新看名形兼类词的发展[D];浙江师范大学;2015年

3 徐汉英;《现代汉语词典》(第6版)双音节动名兼类词研究[D];南昌大学;2015年

4 刘东美;动名兼类的语义句法考察[D];广西师范大学;2015年

5 康婵媛;人造工具兼类词语义的生命度定位与摆度研究[D];暨南大学;2015年

6 张鹤;《发展汉语》中兼类词的考察与偏误分析研究[D];哈尔滨师范大学;2016年

7 于跃;汉英兼类现象对比研究[D];黑龙江大学;2014年

8 刘恋;《汉语教程》兼类词的调查分析[D];安徽大学;2016年

9 龙辉;基于HSK动态作文语料库的动名兼类词偏误研究[D];中央民族大学;2016年

10 孙菲丽;“高度_2”作为区副兼类词的多角度研究[D];辽宁大学;2016年



本文编号:2518364

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2518364.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2ddc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com