面向职位查询的垂直搜索引擎设计与实现
本文关键词:面向职位查询的垂直搜索引擎设计与实现
更多相关文章: 垂直搜索引擎 网络爬虫 中文分词 倒排索引 检索模型 相关度排序
【摘要】:近年来,随着高等教育的逐渐普及,越来越多的人面临着求职难的问题。一些互联网公司从中发现商机,纷纷创办起各具特色的招聘网站,架起了求职者与招聘企业之间沟通的桥梁。但新的问题又摆在了求职者的面前,那就是每个人找工作都要光顾多家招聘网站,不断地重复着用户注册、职位筛选、简历编写与投递等繁杂的任务,这极大的挫伤了人们的求职热情。为了简化人们求职的流程,本文设计并实现了面向职位查询的垂直搜索引擎,它将汇聚各大招聘网站最新的职位信息,利用垂直搜索快速、准确、实时性好等优点,为人们从海量数据中筛选出最能满足其求职意图的查询结果。本文在系统实现的过程中,先利用网络爬虫技术从各个招聘网站抓取网页数据,网页经过解析后抽取职位信息并存入磁盘文档库。其次,为抽取的结构化文档数据建立倒排索引以提高系统的检索速度,考虑到内存空间的限制问题,需要分批次建立临时索引,并最终合并成一个完整的倒排索引文件。再次,结合布尔模型和向量空间模型的特点,实现一个可以按相关度进行排序的布尔检索模型。最后,设计一个基本的Web用户界面,通过Socket调用职位搜索引擎的API来为用户提供针对职位、公司、全文查询的搜索服务。本文所实现的系统经过用户评测后,可以在一定程度上满足求职者的查询需求,但有部分功能还需要在后续的研究过程中进行改进,一方面是职位信息的动态更新需要进一步解决,另一方面就是检索模型的排序功能有待改进。
【关键词】:垂直搜索引擎 网络爬虫 中文分词 倒排索引 检索模型 相关度排序
【学位授予单位】:辽宁科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 绪论9-15
- 1.1 课题背景9-10
- 1.2 垂直搜索引擎10-13
- 1.3 本文研究内容及意义13
- 1.4 本文结构安排13-15
- 2. 职位搜索总体设计15-22
- 2.1 职位搜索架构15-16
- 2.2 职位信息采集16-17
- 2.3 中文分词系统17-18
- 2.4 分段倒排索引18-19
- 2.5 职位检索模型19-21
- 2.6 用户自助查询21
- 2.7 本章小结21-22
- 3. 职位招聘信息的自动采集22-28
- 3.1 URL队列维护22
- 3.2 网页下载器22-25
- 3.3 数据的结构化抽取25-27
- 3.4 文档库27
- 3.5 本章小结27-28
- 4. 中文分词系统28-32
- 4.1 词典建立的准备工作28
- 4.2 词典建立的一般过程28-30
- 4.3 词典的存储和时间开销30
- 4.4 分词词典的匹配操作30-31
- 4.5 本章小结31-32
- 5. 分段倒排索引32-36
- 5.1 索引的应用32
- 5.2 索引的内部结构32-33
- 5.3 索引的内部关系33-34
- 5.4 索引的建立过程34-35
- 5.5 本章小结35-36
- 6. 职位检索模型36-39
- 6.1 分析查询字符串36
- 6.2 进行初步查询36-37
- 6.3 相关度排序37-38
- 6.4 返回查询结果38
- 6.5 本章小结38-39
- 7. 用户自助查询39-44
- 7.1 视图模式选择39
- 7.2 前后台通信方式39-40
- 7.3 开启前后台通信40-42
- 7.4 调用职位搜索接口42
- 7.5 分页查询42-43
- 7.6 本章小结43-44
- 8. 实验结果及分析44-46
- 8.1 系统实验环境44
- 8.2 系统评价指标44
- 8.3 实验结果分析44-46
- 9. 总结及展望46-47
- 参考文献47-50
- 致谢50-51
- 作者简介51-52
【相似文献】
中国期刊全文数据库 前10条
1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
,本文编号:916834
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/916834.html