领域本体驱动的招投标网页解析方法
发布时间:2021-02-12 09:03
针对正则表达式解析招投标网页效率低下的问题,提出了一种基于招投标领域本体的网页自动化解析新方法。首先,分析了招投标网页文本的结构特征;其次,构建了招投标本体的轻量级领域知识模型;最后,给出一种招投标网页元素语义匹配与抽取算法,实现招投标网页的自动化解析。实验结果表明,新方法通过自适应的解析,准确率、召回率分别可达到95. 33%、88. 29%,与正则表达式方法相比,分别提高了3. 98个百分点和3. 81个百分点。所提方法可实现自适应地对招投标网页中语义信息的结构化解析抽取,能够较好地满足实用性能要求。
【文章来源】:计算机应用. 2020,40(06)北大核心
【文章页数】:6 页
【文章目录】:
0 引言
1 相关技术
2 招投标网页信息解析模型
2.1 文本结构特征分析
2.2 本体构建及解析
2.3 目标语义信息
2.4 预处理
2.5 信息抽取
3 实验与结果分析
3.1 数据集
3.2 评价指标
3.3 结果分析
4 结语
【参考文献】:
期刊论文
[1]一个基于农业本体的Web知识抽取模型[J]. 李贯峰,张鹏. 江苏农业科学. 2018(04)
[2]基于知识图谱的Web信息抽取系统[J]. 王辉,郁波,洪宇,肖仰华. 计算机工程. 2017(06)
[3]基于正则表达式构建学习的网页信息抽取方法[J]. 朱文琰,郑肖雄. 计算机应用与软件. 2017(02)
[4]中文植物物种多样性描述文本的信息抽取研究[J]. 段宇锋,黄思思. 现代图书情报技术. 2016(01)
[5]本体应用中术语本体和信息本体解析——以生物医学信息学领域为例[J]. 徐维. 图书馆杂志. 2015(06)
[6]基于模板和领域本体的Deep Web信息抽取研究[J]. 顾韵华,高原,高宝,杜杰. 计算机工程与设计. 2014(01)
[7]正则表达式在Web信息抽取中的应用[J]. 胡军伟,秦奕青,张伟. 北京信息科技大学学报(自然科学版). 2011(06)
[8]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[9]基于正则表达式的企业主页信息抽取[J]. 靳小川,刘万军,赵雷. 计算机系统应用. 2010(08)
[10]基于正则表达式的大规模网页术语对抽取研究[J]. 程岚岚. 情报杂志. 2008(11)
本文编号:3030603
【文章来源】:计算机应用. 2020,40(06)北大核心
【文章页数】:6 页
【文章目录】:
0 引言
1 相关技术
2 招投标网页信息解析模型
2.1 文本结构特征分析
2.2 本体构建及解析
2.3 目标语义信息
2.4 预处理
2.5 信息抽取
3 实验与结果分析
3.1 数据集
3.2 评价指标
3.3 结果分析
4 结语
【参考文献】:
期刊论文
[1]一个基于农业本体的Web知识抽取模型[J]. 李贯峰,张鹏. 江苏农业科学. 2018(04)
[2]基于知识图谱的Web信息抽取系统[J]. 王辉,郁波,洪宇,肖仰华. 计算机工程. 2017(06)
[3]基于正则表达式构建学习的网页信息抽取方法[J]. 朱文琰,郑肖雄. 计算机应用与软件. 2017(02)
[4]中文植物物种多样性描述文本的信息抽取研究[J]. 段宇锋,黄思思. 现代图书情报技术. 2016(01)
[5]本体应用中术语本体和信息本体解析——以生物医学信息学领域为例[J]. 徐维. 图书馆杂志. 2015(06)
[6]基于模板和领域本体的Deep Web信息抽取研究[J]. 顾韵华,高原,高宝,杜杰. 计算机工程与设计. 2014(01)
[7]正则表达式在Web信息抽取中的应用[J]. 胡军伟,秦奕青,张伟. 北京信息科技大学学报(自然科学版). 2011(06)
[8]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[9]基于正则表达式的企业主页信息抽取[J]. 靳小川,刘万军,赵雷. 计算机系统应用. 2010(08)
[10]基于正则表达式的大规模网页术语对抽取研究[J]. 程岚岚. 情报杂志. 2008(11)
本文编号:3030603
本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/3030603.html