面向搜索引擎评测的Web信息抽取系统的设计与实现
发布时间:2019-08-03 08:41
【摘要】:随着Internet信息量的迅速增长,Web已经逐渐成为人们获取信息的主要平台。各大搜索引擎应运而生,竞争激烈。评价引擎的好坏,不仅要看搜索结果,还要依靠用户体验。用户体验必然能为引擎带来流量,所以针对搜索引擎进行用户满意度的评测已经越来越重要,部分具有大型搜索引擎的公司已经为此成立了专门的评测团队甚至部门,利用评测数据来引导引擎的走向。 搜索引擎用户满意度评测的原理,就是将搜索引擎的结果集信息搜集起来,交给用户打分,并针对指标进行统计,对比引擎之间的优劣。而能否成功地获取到评测数据,,是能否成功发起评测任务的关键。 本文通过实验数据说明数据抽取的准确程度会直接影响评测结果,突出信息抽取部分对整个系统的重要性。对比了一些现有的Web信息抽取技术,并针对本系统的需求进行分析,结合搜索引擎结果集页面源码的特点,总结各技术的优势与不足。提出使用正则匹配和Dom解析相结合的方式来抽取和处理评测数据。并基于这种设计思想,实现了一个适用性较强,自动化程度较高的Web信息抽取系统,来解决评测系统如何搜集评测数据的问题。 系统主要包括页面下载、页面过滤、生成抽取规则、信息抽取、数据存储等部分。本文对这些部分依次做了较为详细的介绍。其中生成抽取规则是系统较为重要的实现部分。系统可以利用Dom结构和样本学习来自动生成抽取规则,寻找节点的最大公共路径,记录样本节点的特征,并经过节点相似度匹配的算法过滤掉无关节点信息,为部分产品实现自动化较高的信息抽取。当然,抽取规则也可人工修正。为了提高精度,部分产品采用正则匹配的方式进行信息抽取。由人工提前编写并录入规则库,系统会调用模板匹配模块为信息抽取分配模板。 最后,本文介绍了评价信息抽取好坏的两种指标:准确率和召回率。并对数据下载和信息抽取部分进行测试和结果分析。依据评价指标,发现系统对搜索引擎产生的结果集页面具有很好的抽取效果,解决了为评测人员高效、准确地获取评测数据的问题。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
本文编号:2522456
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
2 王钢明;屠建飞;;基于Web信息抽取的技术成果信息采集系统[J];成组技术与生产现代化;2007年04期
3 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
4 常勇;王亮;姚增利;袁方;;基于领域知识和决策树的Deep Web数据标注[J];广西师范大学学报(自然科学版);2009年01期
5 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
6 时达明;林鸿飞;赵晶;;基于模板化的Blog信息抽取[J];计算机工程与应用;2008年09期
7 肖建鹏;张来顺;任星;;直推式支持向量机在Web信息抽取中的应用研究[J];计算机工程与应用;2009年02期
8 李朝;彭宏;叶苏南;张欢;杨亲遥;;基于DOM树的可适应性Web信息抽取[J];计算机科学;2009年07期
9 杨文柱,徐林昊,陈少飞,郝亚南,李天柱;基于XPath的Web信息抽取的设计与实现[J];计算机工程;2003年16期
10 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
本文编号:2522456
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2522456.html