当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎用短语词典建设

发布时间:2019-09-05 07:21
【摘要】:百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
【作者单位】: 北京大学计算语言学研究所 北京大学计算语言学研究所 北京大学计算语言学研究所 北京大学计算语言学研究所
【基金】:国家“八六三”高技术项目(2002AA117010-8) 国家自然科学基金资助项目(60203022)
【分类号】:TP391.3;

【共引文献】

相关期刊论文 前10条

1 肖建涛;张仰森;谢宇;;面向汉语词义自动标注研究的软件平台开发[J];北京机械工业学院学报;2007年03期

2 吴林;张仰森;王璐;;《现代汉语语法信息词典》的概率化改造及其应用[J];北京信息科技大学学报(自然科学版);2011年06期

3 路云;;《现代汉语词典》中双音节“形名”复合词探析[J];重庆师范大学学报(哲学社会科学版);2011年02期

4 刘云峰;;依据语篇中多层次信息的句法分析方法[J];大家;2011年09期

5 张惠春;由丽萍;;中文核心框架元素标注规则的获取和实验——以认知语义领域为例[J];电脑开发与应用;2011年12期

6 林晓恒;;也谈现代汉语方位词的内涵与外延[J];广西大学学报(哲学社会科学版);2010年04期

7 韩蕾;;事件名词与量词的选择关系——以含有语素“雨”的名词为例[J];华东师范大学学报(哲学社会科学版);2007年03期

8 李学宁;陆汝占;;形容词多义性在《现代汉语规范词典》中的表征[J];井冈山学院学报;2008年01期

9 贾玉祥;俞士汶;;基于实例的隐喻理解与生成[J];计算机科学;2009年03期

10 周溢辉;穆玲玲;昝红英;袁应成;;汉语语气词用法的自动识别研究[J];计算机工程;2010年23期

相关会议论文 前10条

1 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年

3 杨翠兰;;基于语料统计的汉语成语语法功能研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年

4 宝金良;;蒙古文文本标点符号及其属性字段设置[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

5 郭慧志;刘华;谢学敏;张普;;《人民日报》标注语料的初步统计分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 王波;王厚峰;;中文单词聚类的比较研究[A];第三届学生计算语言学研讨会论文集[C];2006年

7 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

8 王萌;俞士汶;段慧明;孙薇薇;;基于语料统计的现代汉语量名搭配研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

9 海银花;那顺乌日图;;《蒙古语语法信息词典量词分库》的建设[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

10 周丽娟;张坤丽;袁应成;昝红英;;基于规则的现代汉语连词用法自动识别研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

相关博士学位论文 前8条

1 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年

2 张金圈;汉语单音方位词与单音动词的偏正性组配研究[D];华中师范大学;2011年

3 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年

4 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年

5 徐艳华;现代汉语实词语法功能考察及词类体系重构[D];南京师范大学;2006年

6 Maharani(陈玉兰);汉语、印尼语动词重叠对比研究[D];上海师范大学;2007年

7 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年

8 宗守云;集合量词的认知研究[D];上海师范大学;2008年

相关硕士学位论文 前10条

1 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年

2 赵小曼;英汉平行语料库句子级对齐研究及其在机器翻译中的应用[D];安徽大学;2010年

3 罗欢;“A_1+A_2”组合研究[D];上海师范大学;2011年

4 郭家翔;宾位主谓结构及其述语的相关考察[D];华中科技大学;2004年

5 成斌;汉语时间语义分析及推理[D];国防科学技术大学;2005年

6 崔宁;单音节颜色词研究[D];上海交通大学;2007年

7 王荣;汉语“NP的VP”结构在句子中的句法语义语用研究[D];东北师范大学;2007年

8 于超;副词“还是”的多角度考察[D];延边大学;2007年

9 程寿凤;韩国语反身代词与汉语“自己”的对比研究[D];延边大学;2007年

10 郭宝清;“两典”词类标注问题研究[D];福建师范大学;2007年

【相似文献】

相关期刊论文 前10条

1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期

2 ;关键词搜索[J];每周电脑报;2000年38期

3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期

4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期

5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期

6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期

7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期

8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期

9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期

10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

相关硕士学位论文 前10条

1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年



本文编号:2532056

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2532056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5a5b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com