当前位置:主页 > 科技论文 > 搜索引擎论文 >

问答社区问句中多字词表达提取

发布时间:2017-11-28 17:10

  本文关键词:问答社区问句中多字词表达提取


  更多相关文章: 多字词表达 问句理解 互信息 搜索引擎


【摘要】:基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.
【作者单位】: 北京信息科技大学网络文化与数字传播北京市重点实验室;北京拓尔思信息技术股份有限公司;
【基金】:国家自然科学基金(批准号:61171159;61271304) 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(批准号:KZ201311232037)
【分类号】:TP391.1
【正文快照】: 多字词表达(MWEs)指内部结合紧密、使用稳定、整体表示一个概念意义,可作为一个固定短语使用的信息单元[1].多字词表达广泛存在于词典中,因其组成结构多样、成分复杂,因此其提取是大规模自然语言处理技术发展的关键问题之一[2].多字词表达也广泛存在于日常交流中,如食物宜忌、

【共引文献】

中国期刊全文数据库 前2条

1 陈宇;朱建锋;吴毅坚;赵文耘;;一种基于领域本体的新术语扩充方法[J];计算机工程;2011年07期

2 徐润华;曲维光;陈小荷;王东波;;多语料库中汉语四字格的切分和识别研究[J];中文信息学报;2013年05期

中国博士学位论文全文数据库 前1条

1 肖奕;地质数据信息服务参考模型及关键技术研究[D];中国地质大学(北京);2013年

中国硕士学位论文全文数据库 前3条

1 陈宇;基于特定领域本体的术语扩充方法[D];复旦大学;2010年

2 狄颖;中文多词表达抽取研究[D];南京师范大学;2013年

3 吴瑞红;互动问答社区中回答可信性分析[D];北京信息科技大学;2013年

【二级参考文献】

中国期刊全文数据库 前3条

1 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期

2 姜柄圭;张秦龙;谌贻荣;常宝宝;;面向机器辅助翻译的汉语语块自动抽取研究[J];中文信息学报;2007年01期

3 赵军,黄昌宁;基于转换的汉语基本名词短语识别模型[J];中文信息学报;1999年02期



本文编号:1234708

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1234708.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7635c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com