当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于条件随机场的中文商品查询语义标注问题研究

发布时间:2020-02-08 09:00
【摘要】:用户通常利用购物搜索引擎寻找自己想要的产品,对比搜索结果列表中的产品信息,例如价格、销量、买家评价等,,点击列表项就进入相应的商品详情页,可以查看更详细的信商品息。理解这些商品查询的意图,既能增强用户的搜索体验,又能促进页面广告带来的收益。为了更好的实现这个目标,我们研究商品查询语义标注问题,即为商品查询中的每一项(词项或字)标注上预先定义的语义类别标签。已有的研究表明,利用序列标注模型可以解决商品查询语义标注问题,例如条件随机场模型,在此类问题中能取得较好的效果。 商品查询具有如下三个特点:查询简短,特征稀少;不同类目的查询差异明显;商品查询词可以较好地划分语义类别,且上下文相关。区别于已有的英文商品查询语义标注的研究,本文研究的数据对象是以中文为主的商品查询。为此,本文首先组合多种类型的特征函数与特征模板丰富特征,能有效提高中文商品查询语义标注效果,同时使用基于商品标题构造语义词典的方法,标注效果进一步提高,特别是在训练样本较少时效果提升显著;其次,据文献调研,本文首次将平均感知器算法应用于语义标注模型中的参数学习过程,在保证标注效果较优的同时大幅缩短了模型训练时间,这将有助于研究成果的现实应用。此外,本文就不同模型、分词与未分词、不同特征模板、不同参数估计算法、语义词典使用前后等多种情况进行对比实验,实验结果与分析为中文商品查询语义标注这一研究主题提供了许多有价值的参考。
【图文】:

巧克力,零食,歧义,手机


它就是 “品牌词”;如果指代一种水果,苹果的英文“apple”同样有歧义)。又如「巧克力是 “产品类型词”,而恰巧 LG 公司出了一款“巧号词”,还有许多“女装”类目下的商品描述也可能是个“不知名的品牌”(这时它是“品牌词”),又或色或图案(这时它是“属性词”)。再如「3g」,在“”,表示产品使用 3G 上网方式,而在“3g 钻戒”中重量三克的意思,所以语义类别相同,真实意义也可,查询串中的词往往是上下文相关的,不同的上下文它们的语义类别自然也就可能不同了。图 1-1 展示了

序列,商品,中文,自然语言处理


本章分“序列标注模型”、“查询分析”和“自然语言处理”三小节介绍已有的研究工作。本文研究“中文商品查询语义标注”问题,是“查询标注”(Query Tagging)的子问题。图 2-1 展示了查询标注与其他研究主题之间的联系。左侧虚线框表示机器学习相关主题,例如文本分类(Text Classification)、序列标注/切分(SequencLabeling/Segment)。查询标注主要由机器学习中的序列标注模型4解决。右侧虚线框表示表示自然语言处理相关主题,例如中文分词、文本分块(Text Chunking)词性标注(Part-of-Speech Tagging, POS Tagging)等。自然语言处理中的相关技术与研究为查询标注提供了基础。由于中文商品查询语义标注研究的数据对象是商品查询,已有的关于商品查询的研究也为本文的研究提供了经验参考。在语义标注前,通常要对商品查询进行分类,这需要查询分类(Query Classification)的相关知识。
【学位授予单位】:中山大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 杨艳萍;谭庆平;;Web服务自动语义标注的本体定位方法研究[J];计算机工程与科学;2008年04期

2 曾诚;李兵;何克清;;KMP算法在Web服务语义标注中的应用[J];微电子学与计算机;2010年08期

3 李毅;保鹏飞;薛万国;;中文电子病历的信息抽取研究[J];生物医学工程学杂志;2010年04期

4 张瑜;李景;孟宪学;苏晓路;;网络标注的主要方法概述[J];图书情报工作;2008年01期

5 张瑜;;网络标注的主要方法[J];湖北第二师范学院学报;2010年02期

6 鞠彦辉;刘闯;;国外典型语义标注平台的比较研究[J];现代情报;2009年01期

7 崔红;段宇锋;郦芳;;基于机器学习的生物多样性英文文档语义标注研究[J];图书情报知识;2011年02期

8 苏菱;吴克伟;黄帅;;一种基于DTSVM的遥感图像分割方法[J];合肥工业大学学报(自然科学版);2011年03期

9 李向阳;张亚非;;一种基于遗传算法的语义标注[J];电子科技大学学报;2007年01期

10 张大陆;吕韬;;基于概念频率的Web服务语义标注[J];同济大学学报(自然科学版);2008年01期

相关会议论文 前10条

1 陈波;姬东鸿;孙程;吕晨;;基于特征结构的汉语主谓谓语句语义标注研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 袁柳;李战怀;陈世亮;;OntoWord:一种新的Web页面语义标注方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

3 曾诚;李兵;何克清;;KMP算法在Web服务语义标注中的应用[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

4 韩先培;齐振宇;田野;王渝丽;赵军;;基于领域语义信息的百科问答系统[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

5 宋雨;郑怿;吴燕;;RDFa语义标注技术综述[A];2009全国计算机网络与通信学术会议论文集[C];2009年

6 韩先培;赵军;;基于Wikipedia的语义元数据生成[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 房江太;黄映辉;李冠宇;;基于WSDL-S的Web服务语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

8 孙晓玲;林鸿飞;;统一语义视图下的垂直领域跨语言检索模型[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 周小甲;李昊e

本文编号:2577471


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2577471.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92541***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com