当前位置:主页 > 科技论文 > 搜索引擎论文 >

什么是搜索引擎_《吉林大学》2010年硕士论文

发布时间:2016-10-07 20:46

  本文关键词:个性化网络搜索引擎研究,由笔耕文化传播整理发布。


《吉林大学》 2010年

个性化网络搜索引擎研究

郭晓刚  

【摘要】: 随着信息技术的进步与互联网络的飞速发展,Web已经成为了人们获取信息的一种重要途径。为了满足用户的信息检索需求,搜索引擎应运而生,但因为技术的发展,现在的搜索引擎已经越来越无法令用户完全满意。本文针对搜索引擎的不足,在已有研究工作的基础上,对个性化网络搜索引擎进行了研究,并给出了相应的解决方法。 论文首先对搜索引擎进行了综述包括搜索引擎的原理、现状、存在的问题、发展趋势等。针对个性化的网络搜索引擎的独特之处,分析了个性化网络搜索引擎所需要的一些关键技术。进一步,针对其中的中文分词技术和用户兴趣挖掘技术做了重点研究。分析了常用的自动分词算法,针对最大匹配法(MM算法)中存在的问题,把其中的减字规则改为增字规则,提出了一种改进的分词算法。通过对标准PageRank算法的深入研究发现,可以利用用户先前访问过的导航路径图来修正标准PageRank算法,同时,在考虑到不同用户访问不同网页的实际情况不同时,将当前网页对不同链出网页的推荐能力设定为非均衡的,由此得出一个优化的PageRank算法——基于用户访问日志的个性化PageRank算法。 最后在上述研究基础上,使用PHP和MySQL实现了一个搜索原型系统MySearch。

【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3
【目录】:

  • 提要4-8
  • 第1章 绪论8-12
  • 1.1 研究背景8-9
  • 1.2 个性化网络搜索引擎的提出9-10
  • 1.3 本文的主要工作及组织结构10-12
  • 第2章 个性化搜索引擎12-23
  • 2.1 搜索引擎概述12
  • 2.2 搜索引擎的工作原理、流程和体系结构12-14
  • 2.3 搜索引擎的数据采集机制14-15
  • 2.4 搜索引擎存在的问题15-16
  • 2.5 Web 挖掘16-18
  • 2.5.1 Web 内容挖掘16-17
  • 2.5.2 Web 结构挖掘17
  • 2.5.3 Web 应用挖掘17-18
  • 2.6 个性化搜索引擎18-21
  • 2.6.1 个性化服务18-19
  • 2.6.2 个性化搜索引擎的含义19-20
  • 2.6.3 个性化搜索引擎的研究现状20
  • 2.6.4 个性化搜索引擎的体系结构20-21
  • 2.7 个性化搜索引擎的关键技术21-23
  • 第3章 自动分词技术和用户兴趣挖掘技术23-33
  • 3.1 中文自动分词技术23-26
  • 3.1.1 基于字符串匹配的分词方法23-26
  • 3.1.2 基于词频统计的分词方法26
  • 3.1.3 基于理解的分词方法26
  • 3.2 一种改进的自动分词算法26-30
  • 3.2.1 算法分析26-29
  • 3.2.2 实验与结果分析29-30
  • 3.3 用户兴趣挖掘技术30-33
  • 3.3.1 基本概念30
  • 3.3.2 获取用户兴趣的方式30-31
  • 3.3.3 用户识别31-33
  • 第4章 网页权重分析技术33-43
  • 4.1 标准 PageRank 算法33-36
  • 4.1.1 算法介绍33-34
  • 4.1.2 PageRank 算法的代数表达34-36
  • 4.2 基于用户访问日志的个性化 PageRank36-39
  • 4.3 实验与结果分析39-43
  • 第5章 MySearch原型系统的设计与实现43-54
  • 5.1 系统的开发方式43
  • 5.2 数据结构43-46
  • 5.3 系统实现46-54
  • 5.3.1 蜘蛛模块46-50
  • 5.3.2 用户信息模块50-52
  • 5.3.3 Web 网页分析模块52
  • 5.3.4 用户接口模块52-54
  • 第6章 结束语54-56
  • 6.1 工作总结54
  • 6.2 进一步的工作54-56
  • 参考文献56-58
  • 致谢58-59
  • 摘要59-62
  • Abstract62-64
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国期刊全文数据库 前1条

    1 张美珍;王治莹;;基于用户查询意图的搜索排序算法[J];天津理工大学学报;2012年03期

    【参考文献】

    中国期刊全文数据库 前6条

    1 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期

    2 杨文峰,李星;网络搜索引擎的用户查询分析[J];计算机工程;2001年06期

    3 金澎;刘毅;王树梅;;汉语分词对中文搜索引擎检索性能的影响[J];情报学报;2006年01期

    4 李树青;;结合网页内容分析的PageRank算法初探[J];情报杂志;2005年12期

    5 俞立文 ,赵政;搜索引擎的工作机制[J];微型机与应用;2002年09期

    6 蒋萍,崔志明;智能搜索引擎中用户兴趣模型分析与研究[J];微电子学与计算机;2004年11期

    【共引文献】

    中国期刊全文数据库 前10条

    1 董玉德,王志诚,王明保,李道伦;基于WEB课件中动态题库的设计与开发[J];安徽纺织职业技术学院学报;2003年01期

    2 郭力军;朱群雄;;基于RSS数据源的用户兴趣模型改进及应用[J];北京化工大学学报(自然科学版);2011年01期

    3 赵静;个性化信息检索及功能模型[J];图书与情报;2004年01期

    4 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期

    5 胡国忠;;对信息检索系统应用技术的数学表示模型的分析[J];长沙航空职业技术学院学报;2005年04期

    6 齐海英;戚国强;王立舒;;乡(镇)级农业综合信息服务平台的研究与设计[J];东北农业大学学报;2006年01期

    7 吴丽华;冯建平;罗云锋;;面向网络教育的个性化智能搜索引擎的设计与实现[J];中国远程教育;2007年07期

    8 徐麟军;吴飞;李伐;;学习资源个性化检索系统中用户兴趣建模研究[J];电脑知识与技术;2008年26期

    9 林锦贤,钟春芳;基于Agent的Web网页自适应检索模型[J];福州大学学报(自然科学版);2000年03期

    10 李燕;;多Agent技术在信息检索中的应用[J];广西师范大学学报(自然科学版);2007年02期

    中国博士学位论文全文数据库 前10条

    1 胡健;开放式分布协作信息技术[D];电子科技大学;2000年

    2 张玉芳;基于媒体素材库的学习内容构建方法研究[D];重庆大学;2001年

    3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年

    4 李洪宁;万维网地理信息系统分布式理论体系研究与实现[D];中国地质大学(北京);2003年

    5 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年

    6 俞方桦;互联网信息资源整合研究[D];东华大学;2001年

    7 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年

    8 陈福集;电子政务系统中面向公众的信息集成化管理与个性化服务研究[D];合肥工业大学;2004年

    9 欧洁;联合数字图书馆信息服务的关键技术研究[D];中国科学院研究生院(计算技术研究所);2002年

    10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年

    【同被引文献】

    中国期刊全文数据库 前6条

    1 张磊;陈俊亮;孟祥武;沈筱彦;郭杰;;基于用户偏好的垂直搜索算法[J];电子科技大学学报;2010年01期

    2 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期

    3 何国斌;赵晶璐;;Web页面主题相关性排序算法的研究[J];计算机工程与应用;2009年23期

    4 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期

    5 唐晓玲;何天云;;基于主题偏好的个性化检索模型研究[J];情报杂志;2011年04期

    6 段淮川;胡平;;基于主题特征和时间因子的改进PageRank算法[J];计算机工程与设计;2010年04期

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期

    2 李永平,文坤梅;集成搜索引擎中结果排序的优化分析[J];华中科技大学学报(自然科学版);2003年11期

    3 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期

    4 蔡登;卢增祥;李衍达;;信息协同过滤[J];计算机科学;2002年06期

    5 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期

    6 钟清流;Web数据挖掘的BN实现方案[J];计算机工程;2001年06期

    7 黄于蓝,王洪,徐端颐,贾惠波;搜索引擎技术的新发展—多元搜索引擎系统[J];计算机工程;2002年01期

    8 陈宝树,党齐民;Web数据挖掘中的数据预处理[J];计算机工程;2002年07期

    9 肖立英,李建华,谭立球;Web日志挖掘技术的研究与应用[J];计算机工程;2002年07期

    10 郭景峰,米浦波,刘国华;决策树算法的并行性研究[J];计算机工程;2002年08期

    【相似文献】

    中国期刊全文数据库 前10条

    1 宋立军;;浅论网络数学搜索中的数学查询语言与索引的研究[J];科技创新导报;2011年21期

    2 郭绍华;;网络信息检索技术的现状及发展趋势[J];黑龙江教育学院学报;2011年06期

    3 郭菲;;网络引擎搜索对热点问题的追踪分析[J];科技促进发展(应用版);2010年10期

    4 ;微软捡便宜[J];上海微型计算机;1998年33期

    5 ;视野[J];新闻实践;2011年09期

    6 黄梦萦;;国内高校图书馆ALEPH500系统Web OPAC功能及使用情况比较[J];新闻传播;2011年07期

    7 ;新软物语[J];电脑爱好者;2011年01期

    8 周博;刘奕群;张敏;金奕江;马少平;;锚文本检索有效性分析[J];软件学报;2011年08期

    9 红客王子;;装个文件监控器 保护网站安全[J];电脑爱好者;2011年09期

    10 梁永演;;浅析搜索引擎的超链接分析排序算法[J];晋图学刊;2011年04期

    中国重要会议论文全文数据库 前10条

    1 吴颖;;对网络搜索引擎辅助翻译的反思[A];全国首届翻译硕士(MTI)教育与翻译产业研讨会论文集[C];2009年

    2 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

    3 岑荣伟;刘奕群;茹立云;张敏;马少平;;基于虚拟主题的网络关键资源页面定位技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

    4 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年

    5 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    6 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    7 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

    8 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    9 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

    10 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年

    中国重要报纸全文数据库 前10条

    1 陆影;[N];中国信息报;2001年

    2 康乐;[N];中国化工报;2002年

    3 本报记者 施嘉奇;[N];文汇报;2010年

    4 本报记者 刘丽丽;[N];计算机世界;2011年

    5 康乐;[N];计算机世界;2002年

    6 记者 柴丽;[N];中国档案报;2009年

    7 京 勇;[N];中国企业报;2004年

    8 魏 薇;[N];中国信息报;2004年

    9 靖红;[N];国际经贸消息;2001年

    10 王军贤;[N];西部时报;2005年

    中国博士学位论文全文数据库 前10条

    1 王菁华;文本中知识的获取[D];北京邮电大学;2008年

    2 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

    3 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年

    4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

    5 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年

    6 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

    7 余俊丰;Web程序与数据安全研究[D];华中科技大学;2011年

    8 沈慧锋;远程富媒体的呈现[D];中国科学技术大学;2010年

    9 赵洁;基于粒计算的Web使用挖掘研究[D];华南理工大学;2010年

    10 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 郭晓刚;个性化网络搜索引擎研究[D];吉林大学;2010年

    2 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年

    3 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年

    4 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年

    5 文敬斌;基于网络设备的网页过滤设计与实现[D];电子科技大学;2011年

    6 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年

    7 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年

    8 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年

    9 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年

    10 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年


      本文关键词:个性化网络搜索引擎研究,,由笔耕文化传播整理发布。



    本文编号:133244

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/133244.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户7d8d5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com