基于HTML的WEB就业信息抽取技术研究
发布时间:2024-02-23 18:02
随着计算机的普及和互联网的发展,网络已成为人们查找信息的重要渠道。Web作为巨大的数据源,从Web中抽取信息是当前信息研究的热点之一。 随着我国高校招生规模逐年扩大,给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息,对专业建设和就业有一定的指导意义。互联网的这些海量信息中,大多都是半结构化的HTML格式。HTML结构的文本并不严格,语义也不清晰,人们无法快速准确地找到需要的信息,所以如何快速准确地获取这些数据是亟待解决的问题。 因此,我们分析了就业信息网站中HTML网页的特点,提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。 首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察,我们形成启发规则来定位“真”表格,设计实现了算法;考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应,本文对表格进行标准化处理,使每一行或列都具有相同数目对齐的单元格。 在多个网站进行实验的结果表明,本文提出的W...
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
本文编号:3907750
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息,对应的网页源代码中还有
图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息,对应的网页源代码中还有每条信息对应的超链接内容,我们研究的目的就是在这样的页面中抽取出这部分信息,并设计一定结构将抽取到的信息保存起来以便查询和利用。通过对大量的大型就业信息发布的网站进行对比研究,发现它们的结构....
图3-2HTML代码段显示效果
<TD>6000</TD><TD>5500</TD><TD>创维</TD><TD>130</TD></TR><TR><TD>洗衣机</TD><TD>3000</TD><TD>2800</TD><TD>小天鹅</TD><TD>212</TD></TR>ABLE>HTML代码在网....
图4-3页面对应的HTML文档源码片断在图4-3中,我们发现样本页的源代码中含有大量的SCRIPT脚本信息,CSS
37图4-3页面对应的HTML文档源码片断在图4-3中,我们发现样本页的源代码中含有大量的SCRIPT脚本信息,CSS式信息等。这些无用的信息对我们从中抽取用户需求的信息带来不小的干扰。
图4-2样本网页截图
图4-2样本网页截图图4-2页面对应的HTML文档源码片断如图4-3所示:
本文编号:3907750
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3907750.html