当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种编辑距离算法及其在网页搜索中的应用

发布时间:2018-08-01 19:17
【摘要】:针对传统方法不能很好地处理网页中简短域与用户查询之间的相关性排序问题,提出一种基于改进的编辑距离排序算法.将以词为单位的用户查询和简短网页域通过匹配编码转化为2个字符串,再利用改进的编辑距离计算2个字符串之间的相似性.由于在用户查询与待比较的简短网页域之间引入了查询词分布的位置、顺序和距离等,以及含有查询词修饰关系的重要信息,所以编码字符串之间的相似程度可以衡量对应的查询与简短网页域之间的相关性.经大规模真实搜索引擎实验表明,该算法较之传统的相关性排序算法,可以显著地提高网页搜索中的简短网页域相关性排序性能,尤其适用于简短域与用户查询之间的相关性比较.
[Abstract]:In view of the fact that the traditional method can not deal well with the problem of the correlation between the short domain and the user query, an improved edit-distance sorting algorithm is proposed. The user query based on words and the short web page domain are transformed into two strings by matching encoding, and the similarity between the two strings is calculated by using the improved editing distance. Because the location, order and distance of query words are introduced between the user query and the short web page field to be compared, and the important information of query word modification relation is also introduced. Therefore, the similarity between encoding strings can measure the correlation between the corresponding query and the domain of a short web page. The experiments of large scale real search engine show that compared with the traditional correlation sorting algorithm, this algorithm can significantly improve the performance of short page domain correlation sorting in web search. It is especially suitable for comparing the correlation between a short domain and a user query.
【作者单位】: 西安交通大学电子与信息工程学院;
【基金】:国家自然科学基金资助项目(60673087)
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 薛晔伟;沈钧毅;张云;;一种编辑距离算法及其在网页搜索中的应用[J];西安交通大学学报;2008年12期

2 刁兴春;谭明超;曹建军;;一种融合多种编辑距离的字符串相似度计算方法[J];计算机应用研究;2010年12期

3 薛晔伟;沈钧毅;张云;鲍军鹏;;网页特征获取方法及其在网页搜索中的应用(英文)[J];Journal of Southeast University(English Edition);2008年03期

4 石东华,杜晓荣,刘晓平;XML在网站页面搜索和生成中的应用[J];合肥工业大学学报(自然科学版);2003年01期

5 高松;;串起珍珠的链条——记腾讯SOSO团队[J];程序员;2010年06期

6 廖明涛;张德运;李金库;;基于网络处理器的高效中英文多模式匹配算法[J];计算机工程;2007年05期

7 王秀华;刘爱霞;;字符串匹配器的设计与实现[J];黑龙江纺织;2008年02期

8 赵作鹏;尹志民;王潜平;许新征;江海峰;;一种改进的编辑距离算法及其在数据处理中的应用[J];计算机应用;2009年02期

9 ;新华社和中移动联手开通盘古搜索[J];今传媒;2011年03期

10 贺川斌,周明全,王长缨;基于像素字符串比较的图像快速匹配算法[J];微机发展;2005年01期

相关会议论文 前10条

1 周学广;张焕国;;一种柔性中文字符串匹配算法[A];第二十七届中国控制会议论文集[C];2008年

2 王小凤;周明全;耿国华;郭红波;;一种基于字符距离的特征字符串近似匹配算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年

3 王英伟;薛林福;潘保芝;;字符串匹配在测井沉积相分析中的应用[A];中国地球物理学会第二十三届年会论文集[C];2007年

4 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 赵国毅;杨晓春;王斌;;面向相似数据的无损压缩技术[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

6 王斌;郭庆;李中博;杨晓春;;支持块编辑距离的索引结构[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

8 王洁;宋柔;;HSK动态作文语料库偏误标注方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

9 杨洋;杨新武;李玉鉴;;一种基于特征串比较的自动眉毛识别方法[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年

10 运正佳;李轶男;杨晓春;;支持带有通配符的字符串匹配算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年

相关重要报纸文章 前10条

1 陈军梅;新浪联手谷歌 共拓竞价广告[N];中国质量报;2007年

2 本报记者 周志军;谷歌“涉黄”,错了就是错了![N];中国文化报;2009年

3 本报记者  张磊;搜索 需要更多社区平台[N];中国消费者报;2006年

4 马晓芳;Google与3G门户联手推出YY搜索[N];第一财经日报;2007年

5 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年

6 张力邋王磊;山水实景演出:点亮夜色的一种可能性[N];中国旅游报;2007年

7 本报记者 陈煜儒;搜索网站“过失”违法须界定[N];法制日报;2009年

8 李晓艳;总部力挺李开复 谷歌中国第三步[N];21世纪经济报道;2007年

9 何苦;谷歌中国不走寻常路:四年竟有五个“门”[N];证券日报;2009年

10 赵垒;中文搜索引擎再点硝烟[N];中华工商时报;2006年

相关博士学位论文 前10条

1 王洁;汉语中介语偏误的计算机处理方法研究[D];北京语言大学;2008年

2 黄建;入侵检测系统中字符串匹配算法与实现[D];华中科技大学;2008年

3 戴东波;序列数据的相似性查询研究[D];复旦大学;2009年

4 李奇越;网络内容分析中基于硬件的字符串匹配算法的研究[D];中国科学技术大学;2008年

5 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

6 乐小虬;非结构化网络空间信息智能搜索与服务研究[D];中国科学院研究生院(遥感应用研究所);2006年

7 李云照;高速网数据过滤若干关键技术研究[D];国防科学技术大学;2009年

8 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年

9 周,

本文编号:2158581


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2158581.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户04cf0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com