基于HTML的WEB就业信息抽取技术研究

发布时间：2024-02-23 18:02

　　随着计算机的普及和互联网的发展，网络已成为人们查找信息的重要渠道。Web作为巨大的数据源，从Web中抽取信息是当前信息研究的热点之一。随着我国高校招生规模逐年扩大，给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息，对专业建设和就业有一定的指导意义。互联网的这些海量信息中，大多都是半结构化的HTML格式。HTML结构的文本并不严格，语义也不清晰，人们无法快速准确地找到需要的信息，所以如何快速准确地获取这些数据是亟待解决的问题。因此，我们分析了就业信息网站中HTML网页的特点，提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察，我们形成启发规则来定位“真”表格，设计实现了算法；考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应，本文对表格进行标准化处理，使每一行或列都具有相同数目对齐的单元格。在多个网站进行实验的结果表明，本文提出的W...

【文章页数】：73 页

【学位级别】：硕士

【部分图文】：

图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息，对应的网页源代码中还有

图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息，对应的网页源代码中还有每条信息对应的超链接内容，我们研究的目的就是在这样的页面中抽取出这部分信息，并设计一定结构将抽取到的信息保存起来以便查询和利用。通过对大量的大型就业信息发布的网站进行对比研究，发现它们的结构....

图3-2HTML代码段显示效果

<TD>6000</TD><TD>5500</TD><TD>创维</TD><TD>130</TD></TR><TR><TD>洗衣机</TD><TD>3000</TD><TD>2800</TD><TD>小天鹅</TD><TD>212</TD></TR>ABLE>HTML代码在网....

图4-3页面对应的HTML文档源码片断在图4-3中，我们发现样本页的源代码中含有大量的SCRIPT脚本信息，CSS

37图4-3页面对应的HTML文档源码片断在图4-3中，我们发现样本页的源代码中含有大量的SCRIPT脚本信息，CSS式信息等。这些无用的信息对我们从中抽取用户需求的信息带来不小的干扰。

图4-2样本网页截图

图4-2样本网页截图图4-2页面对应的HTML文档源码片断如图4-3所示：

本文编号：3907750

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3907750.html

上一篇：基于SDN的能源互联网络架构设计及控制域分配研究
下一篇：一种面向融合SD-WAN广域网接入设计及其加速技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|