当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向用户体验需求的垂直搜索引擎的研究

发布时间:2016-11-03 17:33

  本文关键词:面向用户体验需求的垂直搜索引擎的研究,,由笔耕文化传播整理发布。


《吉林大学》 2011年

面向用户体验需求的垂直搜索引擎的研究

杜佳伦  

【摘要】:互联网迅速发展,信息量也越来越大。如何更方便的获取信息成为研究的重点。起初的方法是以雅虎为主,通过人工收录。这种方法是由人把互联网的信息做整理,然后再根据事先分好的类,加一个网站放到已有的分类中。用户在搜索一个关键词的时候,可以根据分类的树状结构进行查询。这个方法由于完全是人工做的,所以准确率很高。但是人工维护成本太高,人们对于知识的需求形势也多种多样,互联网的增长速度也很快,这种方法远远不能满足需求。 随后便产生了搜索引擎。搜索引擎的体验为通过关键词得到想要的网页。搜索引擎的数据来源为整个互联网。它通过网络爬虫程序,将互联网上所有的数据根据链接关系,逐步爬取过来。爬取后,将网页信息提取出来,并根据关键字做倒排,建立倒排索引。然后利用迭代方法,计算网页的权重,做排序。然后提供一个检索的用户交互平台,并通过界面让用户使用关键词进行检索。搜索引擎从最开始的全文搜索理论起源。 垂直搜索引擎是网页搜索引擎的进一步延伸,它面向的是具体的某种对象,比如地图,语音,图片,视频等。对于某种对象,在相应的垂直搜索引擎上搜索要比在网页搜索引擎上搜索效果更好。垂直搜索引擎的出现,在某种程度上满足了某种用户的需求。但是,使用垂直搜索引擎的前提是用户必须对于搜索的对象的属性充分的了解。比如,搜索电脑的时候必须搜索具体的参数,硬盘,内存,CPU等。这对于那些不了解对象属性的用户来说就无从下手了。 本文以笔记本电脑为搜索对象,实现了一个可以在完全不了解对象属性的前提下,只通过搜索体验需求来得到想要的结果的垂直搜索引擎。 既然是搜索体验需求,所以,就要考虑用户如何给出他自身对于一个对象的体验需求。本文是让用户通过自然语言来描述自己的需求,同时用数字给出对于价格的需求。比如:速度快,便携等。这种搜索方式与以往必须搜索电脑的具体参数,如内存,硬盘等完全不同,也是本文的创新点。 这种搜索引擎的实现方法就是先将用户的体验需求进行分类,在这个分类中并不直接包括对象的属性信息。由于任何一个对象的信息无非就是和它相关的各个属性信息,所以,任何一个体验需求的分类也一定与具体对象的某些属性相关联。相关联的属性在计算权值的时候需要重点考虑。 基于这种体验效果,本文首先通过一个传统的笔记本电脑搜索网站,将所有有报价的笔记本电脑配置信息网页和图片都取了下来。然后,从网页中将参数的具体配置信息取出来,并进行了清洗。对于主要的参数重点考虑,进行补全。因为在重点考虑的参数不能缺失,否则无法计算权值。补全后,还要给出一个属性不同参数的排序关系。因为对于一个参数,只有知道如何比较好坏,才能知道向用户推荐哪些。而不同的参数比较方法差别很大,有些直接根据数值就能比较,有些要通过经验去判断。比如,内存的好坏既要看大小,又要看类型。硬盘容量的比较是越大越好,而笔记本的重量,是越小越好。在知道每个属性参数如何进行比较后,还要知道每个属性参数对电脑具体体验需求的影响。因为不同参数对于同一个指标影响不同。比如,处理器对笔记本运行速度的影响要大于内存对于笔记本速度的影响。这些基础处理完成后,就要做人机交互的部分了。 这个过程,首先根据不同的体验效果和用途进行了分类。然后,确定每个分类和对象的哪些属性相关。当用户的需求和具体的一个分类相关时,就提高相应属性在计算权值的过程中所产生的影响。本文实现的分类器用得文本表示模型为向量空间模型,算法采用的是Rocchio算法,相似性计算用的是余弦相似度计算。同时,用户还有价格的需求。所以在向用户返回结果的过程中,首先筛选出价格在用户给出的价格上下500元内的电脑,然后从中根据每个属性的不同参数值和属性的权重计算每款型号的最终权值。最后,根据最终权值对每款型号进行排序。 通过上述方法,用户不再需要对电脑的各个属性了解的很透,只给出体验需求也可以选购电脑。与传统必须通过对象属性参数来搜索,有了很大进步。这标志着,垂直搜索在查询的时候可以完全不依赖对象的属性信息了。这种思想可以在各种垂直搜索上使用,将会给垂直搜索带来很大的改善。

【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要4-6
  • Abstract6-11
  • 第1章 绪论11-16
  • 1.1 研究背景11-13
  • 1.1.1 搜索引擎的出现11-12
  • 1.1.2 垂直搜索的出现12-13
  • 1.2 研究课题与意义13-15
  • 1.2.1 传统搜索引擎的不足13-14
  • 1.2.2 本文要实现的系统14-15
  • 1.2.3 研究意义15
  • 1.3 论文结构15-16
  • 第2章 设计目标16-18
  • 2.1 系统设计目标16
  • 2.2 需要的技术16-18
  • 第3章 爬行技术与信息提取18-25
  • 3.1 爬行技术简介18-19
  • 3.2 基于HTTP协议的爬行19-21
  • 3.2.1 http协议19-20
  • 3.2.2 WebClient20-21
  • 3.3 网页信息结构21
  • 3.4 网页信息提取方法21-24
  • 3.4.1 基于DOM树的方法21-22
  • 3.4.2 基于正则表达式的方法22-24
  • 3.5 对象信息的提取24-25
  • 第4章 文本分类技术25-31
  • 4.1 文本信息模型25-26
  • 4.1.1 布尔模型25
  • 4.1.2 向量空间模型25-26
  • 4.2 中文分词26-27
  • 4.2.1 常用的分词方法26-27
  • 4.2.1.1 基于字符串匹配的分词方法26-27
  • 4.2.1.2 基于理解的分词方法27
  • 4.2.1.3 基于统计的分词方法27
  • 4.2.2 分词工具介绍27
  • 4.3 文本特征选择27-28
  • 4.3.1 文档频率28
  • 4.3.2 信息28
  • 4.3.3 卡方统计量28
  • 4.4 文本分类算法28-31
  • 4.4.1 Rocchio算法28-29
  • 4.4.2 朴素贝叶斯算法29
  • 4.4.3 K邻近算法29-30
  • 4.4.4 决策树算法30-31
  • 第5章 系统设计与实现31-48
  • 5.1 数据的获取31-33
  • 5.1.1 数据目录的获取31-32
  • 5.1.2 笔记本页面的获取32-33
  • 5.1.3 笔记本图片的获取33
  • 5.2 数据的清洗33-35
  • 5.3 数据预处理35-39
  • 5.3.1 对象属性的筛选35
  • 5.3.2 噪音数据的处理35-36
  • 5.3.3 数据格式的统一36-38
  • 5.3.4 缺失数据的处理38-39
  • 5.4 参数与体验效果的关系39-40
  • 5.5 通用参数的处理40-41
  • 5.6 参数的排序关系41-42
  • 5.7 文本分类模型42-43
  • 5.7.1 分类的准备43
  • 5.7.2 分类过程43
  • 5.8 根据分类做排序43-44
  • 5.9 系统的整体架构44-48
  • 5.9.1 服务端处理流程46
  • 5.9.2 UI处理流程46
  • 5.9.3 通讯类46-48
  • 第6章 总结与展望48-49
  • 参考文献49-51
  • 作者简介及在学期间所取得的科研成果51-52
  • 致谢52
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国博士学位论文全文数据库 前1条

    1 舒永钢;WebGIS旅游信息搜索功用研究及应用[D];浙江工商大学;2012年

    中国硕士学位论文全文数据库 前1条

    1 朱敏;基于Lucene的垂直搜索引擎的研究与实现[D];成都理工大学;2012年

    【参考文献】

    中国期刊全文数据库 前3条

    1 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

    2 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期

    3 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期

    【共引文献】

    中国期刊全文数据库 前10条

    1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期

    2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期

    3 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期

    4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

    5 张惠君;李娟;;基于OPAC的馆藏评价方法探究[J];图书与情报;2010年04期

    6 孙英娟;蒲东兵;孙英慧;李春宜;周春光;;邮件过滤Agent的设计[J];吉林大学学报(信息科学版);2008年06期

    7 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期

    8 杨延锟;许少华;;基于FVSM的核聚类算法在文本聚类中的应用[J];长江大学学报(自然科学版)理工卷;2010年01期

    9 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期

    10 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期

    中国重要会议论文全文数据库 前6条

    1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

    2 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年

    3 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

    4 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

    5 张庆国;章成志;薛德军;张君玉;;基于K最近邻的隐含主题自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    中国博士学位论文全文数据库 前10条

    1 WANG Jiayue;[D];广东外语外贸大学;2003年

    2 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年

    3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

    4 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年

    5 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年

    6 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年

    7 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

    8 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年

    9 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

    10 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

    中国硕士学位论文全文数据库 前10条

    1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

    2 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年

    3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年

    4 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年

    5 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年

    6 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年

    7 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年

    8 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年

    9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

    10 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 解杼,张捷,刘泽华,余颖,郭来喜;旅游者入游感知距离与旅游空间行为研究——以江西省龙虎山为例[J];安徽师范大学学报(自然科学版);2003年04期

    2 文谨;宫辉力;;自助旅游者对网络旅游信息的需求研究[J];北京社会科学;2009年04期

    3 唐亮;张结魁;徐建华;;网络消费者信息搜寻行为研究[J];图书与情报;2008年02期

    4 陈晓宁;马亚飞;谢孟利;;基于NewMap API的Web地图服务系统应用[J];测绘标准化;2011年03期

    5 杨阳;朱翊;刘纪平;;网络电子地图的设计与应用[J];测绘科学;2007年S1期

    6 吴增红;陈毓芬;;河南省旅游地图网站的设计与实现[J];测绘科学;2008年01期

    7 郭亮;龚建华;孙麇;杨卫军;林国添;;基于ArcGIS Server与AJAX的WebGIS设计与实现[J];测绘科学;2011年03期

    8 吴晓佳,李卫红;基于WebGIS技术的旅游自助地理信息系统[J];城市勘测;2004年05期

    9 马张宝,万剑华,刘娜;基于WebGIS和3D GIS的集成研究[J];测绘与空间地理信息;2005年03期

    10 周昕薇,王福生,王颖;基于GIS的北京旅游信息系统的设计与开发[J];测绘与空间地理信息;2005年04期

    中国博士学位论文全文数据库 前10条

    1 李东;在线旅行服务商业模式研究[D];华侨大学;2011年

    2 王晓峰;基于TMIS和TGIS比较的陕西旅游资源决策支持系统研究[D];陕西师范大学;2005年

    3 方针;用户信息技术接受的影响因素模型与实证研究[D];复旦大学;2005年

    4 张霞;地理信息服务组合与空间分析服务研究[D];武汉大学;2004年

    5 吴功和;分布式地理信息服务研究与实践[D];解放军信息工程大学;2006年

    6 马庆勋;网络空间实时信息处理关键技术研究与实现[D];中国地质大学(北京);2007年

    7 李如仁;公众参与式地理信息系统的理论与实践[D];辽宁工程技术大学;2007年

    8 朱阁;移动商务消费者决策行为中的接受与转移研究[D];北京邮电大学;2009年

    9 马张宝;旅游出行决策支持系统的方法和技术研究[D];山东科技大学;2009年

    10 段建华;基于WebGIS的分布式接处警系统研究[D];中国地质大学(北京);2010年

    中国硕士学位论文全文数据库 前10条

    1 李彦达;基于上下文感知应用的移动式旅游服务研究[D];中国海洋大学;2010年

    2 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年

    3 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年

    4 何松;我国移动商务消费者初始信任影响因素研究[D];沈阳理工大学;2011年

    5 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年

    6 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年

    7 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年

    8 杨洋;基于WebGIS的省级旅游地理信息系统研究与开发[D];广西师范大学;2006年

    9 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年

    10 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年

    【二级引证文献】

    中国硕士学位论文全文数据库 前3条

    1 徐兴元;Web时空数据挖掘及其地图信息服务[D];华东师范大学;2013年

    2 张昭;基于WebGIS的食品安全监管系统设计与实现[D];南昌航空大学;2013年

    3 韩剑磊;昆明城市游憩商业区(RBD)旅游体验研究[D];云南财经大学;2013年

    【二级参考文献】

    中国期刊全文数据库 前1条

    1 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期

    【相似文献】

    中国期刊全文数据库 前10条

    1 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

    2 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

    3 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

    4 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

    5 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

    6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

    7 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

    8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期

    9 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

    10 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期

    中国重要会议论文全文数据库 前3条

    1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    中国重要报纸全文数据库 前10条

    1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

    2 王艳;[N];中国旅游报;2000年

    3 赛迪网 方刚;[N];中国计算机报;2000年

    4 王靖;[N];人民日报海外版;2000年

    5 记者 王浒;[N];中国旅游报;2009年

    6 本报记者 王宏;[N];中国计算机报;2001年

    7 徐瑾 张玉;[N];人民邮电;2009年

    8 本报记者 王晓雁;[N];法制日报;2009年

    9 记者 吴德群;[N];深圳特区报;2009年

    10 本报记者 胡钰;[N];华夏时报;2009年

    中国博士学位论文全文数据库 前5条

    1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

    4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年

    5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

    中国硕士学位论文全文数据库 前10条

    1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

    2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年

    3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年

    4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

    5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年

    6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

    7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

    8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

    9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年

    10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年


      本文关键词:面向用户体验需求的垂直搜索引擎的研究,由笔耕文化传播整理发布。



    本文编号:163356

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/163356.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户4778a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com