当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种结合同义词典和词对共现距离的查询扩展方法

发布时间:2019-09-22 13:56
【摘要】:为了在检索过程中全面表达查询意愿,提出一种结合同义词典和词对共现距离的查询扩展方法。横向利用同义词典方法进行扩展,发挥它的简单、高效优势;纵向利用可观察的语言事实统计上下文词对的共现距离,从而对词汇语义相关性进行精确和有效的度量,用简洁、相关的词来扩展查询词。实验表明,该方法在实际搜索引擎中有较好效果。
【图文】:

语义图,程度图,相关词,共现


增加计算复杂程度,而且可能引入噪声。实验中,取相关词的前10个来表征该词在上下文中语义,并在不同w下,计算相关词平均权重,实验结果见图1。  从实验可以看出,当0<w<30时,相关词的平均权重随着共现窗口的增大而增大;当30<w<50时,相关词的平均权重基本稳定;当w>50时,相关词的平均权重微有下降。从语义上来讲,词与词的潜在相关性在上下文中只在一定范围内才具有有效,如果超出词的语义映射范围,就会增加不必要的计算

查准率,网页数据库,查询扩展,相关词


虑用户查看搜索结果的习惯,人工统计前60条搜索结果的查准率Pr@ 60(由于涉及到具体的搜索引擎的网页数据库,暂时不统计查全率)。为了说明该查询扩展方法的有效性,将本文提出的方法与不扩展、上下文扩展方法和同义词典扩展作比较,结果见图2。图1 共现窗口和相关词平均权重的关系图Fig·1 Relation between cooccurrencew indow and relevant term s weight图2 四种扩展的查准率比较Fig·2 Comparison of four expansion strategy308
【作者单位】: 广西大学计算机与电子信息学院;
【基金】:国家863项目资助项目(2007AA01Z403)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前6条

1 李莉;高庆狮;;一种基于语义单元的查询扩展方法[J];计算机科学;2008年02期

2 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期

3 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期

4 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期

5 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期

6 田萱;杜小勇;李海华;;语义查询扩展中词语-概念相关度的计算[J];软件学报;2008年08期

【共引文献】

相关期刊论文 前10条

1 李智;;义素分析法与词典释义[J];北方论丛;2007年02期

2 余正涛,樊孝忠,宋丽荣;基于特定问题类别的汉语问答系统查询扩展[J];北京理工大学学报;2005年10期

3 秦莉;;从“工薪族”、“上班族”二个词语看民族人的词类观[J];才智;2008年19期

4 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

5 齐波;王成良;;现代汉语短语的机器识别[J];重庆工学院学报(自然科学版);2007年12期

6 尚福华;韩开旭;;基于相关术语群和同义词的查询扩展研究[J];长江大学学报(自然科学版)理工卷;2010年03期

7 吴佳娣;;现代汉语方位词的界定和甄别[J];时代教育(教育教学);2011年04期

8 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期

9 郗君甫;刘国华;唐军军;祁瑞丽;朱鹤;;基于本体的关系数据库关键词语义查询扩展方法[J];燕山大学学报;2010年03期

10 李慧颖;瞿裕忠;;基于关键词的RDF数据查询方法[J];东南大学学报(自然科学版);2010年02期

相关会议论文 前10条

1 徐海;;英、汉分类词典编纂刍议[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年

2 ;THE ECOMMERCE INFORMATION MODEL DRIVEN SEMANTIC SEARCHING ALGORITHM[A];Proceedings of 2006 International Symposium on Distributed Computing and Applications to Business, Engineering and Science[C];2006年

3 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年

4 李永宏;周一心;于洪志;;仓央嘉措情歌的词汇组合与节律的关系研究[A];第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文摘要集[C];2009年

5 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

6 张威;张博刚;廖飞雄;陈月宁;;基于软件运行记录的交互测试研究[A];第六届中国测试学术会议论文集[C];2010年

7 高建忠;;汉语动宾搭配的自动识别研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

8 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

9 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

10 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年

相关博士学位论文 前10条

1 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年

2 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年

3 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年

4 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年

5 李智;机器学习方法及其在基金项目评审中的应用研究[D];天津大学;2004年

6 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年

7 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年

8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年

9 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年

10 郭岩;网络日志中用户兴趣的挖掘及利用[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前10条

1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年

2 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年

3 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年

4 张瑶;英汉机器翻译中的英语动词汉译研究[D];大连理工大学;2010年

5 刘金盼;新闻语料库中基于概念网络的词语相关度计算[D];华东师范大学;2011年

6 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年

7 李春;基于本体的文本信息检索技术研究与实现[D];南京航空航天大学;2009年

8 高建忠;汉语动宾搭配的自动识别研究[D];北京语言文化大学;2000年

9 王春霞;基于语料库的离合词研究[D];北京语言文化大学;2001年

10 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年

【二级参考文献】

相关期刊论文 前10条

1 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期

2 顾榕,王小平,曹立明;一种基于潜在语义分析的查询扩展算法[J];计算机工程与应用;2004年18期

3 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期

4 张敏,宋睿华,马少平;基于语义关系查询扩展的文档重构方法[J];计算机学报;2004年10期

5 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期

6 盛秋艳,何文广;基于Hopfield神经网络的概念检索技术[J];情报科学;2004年03期

7 罗威;基于向量空间的中文概念检索技术研究[J];情报理论与实践;2003年03期

8 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期

9 高小宇,高庆狮,胡s,

本文编号:2540026


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2540026.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0248a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com