当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种新的Web链接提取模型

发布时间:2018-07-20 09:34
【摘要】:以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。
[Abstract]:Aiming at the fault tolerance, correctness, comprehensiveness, efficiency and expansibility required by the search engine link extraction module, a new design idea of link extraction model is proposed. The model divides the link extraction process into information extraction, information processing, information analysis and information storage. The acquisition of information is to obtain the initial uniform resource address (un iform resourceiden tifier) I) data from the document by the HTML (hypertex t m arkup language) grammar analysis method, and to refine the initial data by using the UR I parse algorithm in the information processing stage. Then the information is filtered and filtered in the process of information analysis. Finally, the results are stored in a flexible data structure. The comparison test shows that the new link extraction model has obvious advantages over the traditional method in each index.
【作者单位】: EECS
【分类号】:TP393.092

【参考文献】

相关期刊论文 前1条

1 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期

【共引文献】

相关期刊论文 前10条

1 王新华;周峰;孙树文;李剑锋;;软PLC编译系统的开发与实现[J];北京工业大学学报;2008年11期

2 李峰;基于自底向上的语法制导定义的实现[J];重庆交通学院学报;2004年03期

3 秦飞舟;;基于编译原理的四则混合运算器的实现[J];电脑知识与技术;2008年15期

4 吕映芝;上下文无关文法与无限状态自动机[J];电子学报;1996年08期

5 晏兴学;正规式与正规文法的等价性及转化算法[J];甘肃高师学报;2001年05期

6 金毅;陆蓓;王小华;;一种较少状态数的LR分析器[J];杭州电子科技大学学报;2006年03期

7 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期

8 李恩有,张祥,吴成柯,刘静;基于一实际应用系统的I860XR汇编程序及链接程序设计[J];计算机研究与发展;1997年06期

9 张伟,,王岩;前后文无关和有关问题的语法分析规范化算法的研究与设计[J];吉林工业大学学报;1995年02期

10 马吉明,韩丽,甘勇;自动机到正规表达式的重构方法研究[J];计算机工程与应用;2004年23期

相关博士学位论文 前1条

1 敖丽敏;交互式过程性知识表示与获取及其实现的研究[D];中国农业大学;2005年

相关硕士学位论文 前10条

1 王浩;基于XML的开放式工业机器人解释器的研究[D];华南理工大学;2010年

2 宋双;基于Berkeley DB的图像信息索引机制的设计与实现[D];南京航空航天大学;2009年

3 李霞;一种Fortran语言源到源转换模型的研究与实现[D];解放军信息工程大学;2001年

4 高宾;基于PC的开放式数控系统中的PLC系统研究[D];北京工业大学;2001年

5 韩红军;基于控制流图的Java语言动态例化的研究[D];北京工业大学;2002年

6 朱腾辉;实时绘制语言的研究[D];中国科学院研究生院(软件研究所);2003年

7 胡铟;工业色谱仪嵌入式系统软件开发与研究[D];南京工业大学;2004年

8 李巍巍;Z规格说明中集合论算子的自动求精研究及实现[D];沈阳工业大学;2005年

9 张洪涛;JAVA下实现LL(1)动作文法编译器的自动生成器[D];吉林大学;2005年

10 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年

【二级参考文献】

相关期刊论文 前1条

1 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期

【相似文献】

相关期刊论文 前10条

1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期

2 ;关键词搜索[J];每周电脑报;2000年38期

3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期

4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期

5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期

6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期

7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期

8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期

9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期

10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

6 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年



本文编号:2133118

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2133118.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9c791***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com