当前位置:主页 > 科技论文 > 搜索引擎论文 >

高校就业信息平台的垂直搜索引擎实现

发布时间:2016-09-14 22:08

  本文关键词:宠物用品垂直搜索引擎研究与设计,由笔耕文化传播整理发布。


校就业信息平台的垂直搜索引擎实现 徐勇 薛建芳 ( 1 .河北大学; 2 .河北机电职业技术学院 ) 摘要:利用开源软件 L u c e n e工具包实现一个基于垂直搜索的高过类似于表格的结构化形式对招聘信息进行描述的。针校就业信息平台,为大学生就业提供专业对口、内容全面、权威准确的对网页的 H T ML源码使用如下算法抽取单位信息:第一就业信息,大力促进高校毕业生的就业。 关键词: L u c e n e垂直搜索就业

步:去掉 H T ML中的标记和网页描述符号,得到网页中描

1概述

近年来,随着高校扩招规模的逐年加大,毕业生数目 “职位”、“工资”、“日期”、“兼职”等字段。第二步:根据网 也随之水涨船高,各大城市招聘市场的火爆场面更是让众页中的注释符号将网页中说明程序功能的注释提取出 多的毕业生望而生畏。通过网络平台发布就业/招聘信息来,将这些注释与招工单位的一些描述性文字进行比对, 越来越受到大学生和企业双方的重视。本文采用开源工具得到招工单位的一些信息。第三步:本平台中的招工信息包 L u c e n e实现了一个基于 B/ S模式的高校就业信息平数据库中存储了一些相关的职位信息字段,把从网页中台,为大学生提供专业对口、信息准确、实时高效、可以设获取到的相关字段和上述数据库中的字段进行比对和分定就业地域/薪酬水平等等的垂直搜索服务。 析,可以获得比较良好的匹配度。第四步:根据前面的比 2高校就业信息平台的总体框架较得到匹配字段后,按照顺序取出这些匹配字段:如“联本系统包括以下模块: 想集团、销售人员、 3 0 0 O/月、 2 0 1 0— 1 2— 8”作为相应字段 2 . 1信息采集模块本模块采用网络蜘蛛自动采集网将前四步循环,当遇到下一页信息,获取与招聘信息有关的网页,并对这些网页进行的值存入数据库中。第五步:个代码“ !”时停止。第六步:上述环节结束后将网页的存储,之后运用信息抽取技术,提取出网页的结构化信息, R L添加到

数据库中,然后由人工的方式进行处理。在本如招聘企业的地址、工作类别、工资待遇、相关要求等,并 U可以实现动态调整。在试运行阶段发将这些数据存人数据库当中,为用户提供查询和检索信平台运行的过程中,现,如果用户输入的关键字和数据库中的相关字段匹配息。 0%以上的查询精确 2 . 2数据库管理模块本平台主要包括两个数据库。 程度较高,本平台可以实现高达 9度。 网页采集数据库:用于存储网络蜘蛛已经采集到的网页信息,已经发现但是还没有遍历的新 U RL列表,,网页权值的

述招工单位的具体内容的词语或词组,采用分隔符将这些词隔开。这样在网页 H T ML描述中就只剩下“单位”、

3 . 4建立系统索引本文使用如下方法建立系统索

①读取招聘信息数据库中的内容,然后创建一个实现存储以及索引和数据字典信息存储等等。信息数据库:用引:了与数据库链接方法和读取数据库内容方法的类。②创建于存储所有招工单位的基本信息。包括企业名称、地址、电

高校学生就业平台和 L u c e n e的交互接口。③为存储高校话、招工岗位、薪酬、和其他具体要求等等。 学生就业单位的数据库建立索引。 2 . 3信息检索显示模块此模块是用户和该平台的一 3 . 5信息检索本平台获取到用户输入的查询关键字个信息交互窗口,给用户提供最终的查询结果,同时还提通过 L u c e n e接口将关键字提交给查询分析器,查询供了供用户选择的查询方式。用户可以根据自己的需要选后, 择查询方式和显示方式,最终在此模块中对用户展现结分析器将关键字分析转换成基本的关键字的逻辑组合用果。 来执行搜索过程,检索结束后返回一个命中集。用户在进

3系统实现行检索的时候可以选择查询范围和条件。 3 . 1网页信息抓取在本环节中,系统使用元搜索引 4总结擎根据用户输入的关键字获取相关的内容,然后派出网络本论文使用开源工具包 L u c e n e实现了高校就业信蜘蛛抓取相关的网页,经过一系列的处理以后存入索引库息平台。通过使用垂直搜索技

术实现了对大学生就业信息以供以后的查询使用。 专业化、高精度的深入检索,避免了通用搜索引擎宽泛的为了保证检索精度,对抓取网页的 HI T S算法进行了 缺陷,给大学生就业提供了一个专业对口、信息实时、准改进。描述如下:第一步:初始化,把网页的 Au t h o r i t y权值确、全面的搜索工具。 和 Hu b权值初值都设为 1:第二步:按照规则,把所有链接的A u t h o r i t y和 Hu b权值计算出来;第三步:按照下面的 参考文献: [ 1】陈向东.宠物用品垂直搜索引擎研究与设计【 M】 .西北农林科 技大学, 2 0 1 0 .

公式进行计算,直到收敛。 A l _∑H j * A u t h o r i t y ( j, i ) J EB ( . 1

【 2】苗海.基于聚类算法的垂直搜索引擎技术研究,北京信息科技大学学报, 2 0 1 3 . 【 3】郭姣.基于 We b GI S的五金产业信息搜索系统的设计与实现 【 M】 .山西财经大学, 2 0 1 1 .

3 . 2使用如下正则达式来限制网络蜘蛛的爬行范围: # a c c e p t h o s t s i n . DOM AI NBE ACCE P T . NAM E

4 - h t t p:// ( f a - z 0— 9】 \ . )招聘网站 U R L

【 4】冯效栋.垂直搜索引擎技术在网络舆情巡控中的研究与应用

3 . 3页面信息分析常见的就业招聘信息网页都是通【 M】 .中国海洋大学, 2 0 1 0 . 2 4 2

高校就业信息平台的垂直搜索引擎实现

Word文档免费下载:高校就业信息平台的垂直搜索引擎实现 (下载1-1页,共1页)


  本文关键词:宠物用品垂直搜索引擎研究与设计,由笔耕文化传播整理发布。



本文编号:115470

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/115470.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0da7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com