不规则文本中商品名称识别的特征选择
发布时间:2018-02-14 10:44
本文关键词: 商品名称 不规则文本 最大熵模型 词的分布式表示 出处:《计算机工程与科学》2016年10期 论文类型:期刊论文
【摘要】:传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。
[Abstract]:With the development of E - commerce and Internet advertising , how to identify commodity names from irregular context information of users is a problem that needs to be solved . In order to solve this problem , a maximum entropy model is established to identify the commodity names in the irregular text of the forum .
【作者单位】: 海军工程大学理学院;中国科学院武汉文献情报中心;
【基金】:国家自然科学基金(61402516)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
【共引文献】
相关期刊论文 前2条
1 杨美妮;何涛;沈静;张建军;;不规则文本中商品名称识别的特征选择[J];计算机工程与科学;2016年10期
2 曾凯;佘X;;不完备信息系统的容差邻域熵和属性选择[J];小型微型计算机系统;2014年05期
【二级参考文献】
相关期刊论文 前4条
1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
2 王睿,张洁,张由仪,于y,
本文编号:1510527
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1510527.html