当前位置:主页 > 科技论文 > 软件论文 >

基于节点类型标注的网页主题信息抽取方法

发布时间:2017-08-01 17:38

  本文关键词:基于节点类型标注的网页主题信息抽取方法


  更多相关文章: DOM 节点类型标注 主题信息抽取


【摘要】:提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。
【作者单位】: 中国农业科学院农业信息研究所;
【关键词】DOM 节点类型标注 主题信息抽取
【基金】:国家高技术研究发展计划(2013AA102405)资助
【分类号】:TP391.1;TP393.092
【正文快照】: 本文受国家高技术研究发展计划(2013AA102405)资助。1引言随着互联网的快速发展,网页数量呈指数递增,如何从浩如烟海的网页中获取所需的信息是人们面临的一个亟待解决的问题。网页中包含着丰富的内容,既有用户想要浏览的主题信息,也有对用户形成干扰与主题无关的信息,如页面导

【相似文献】

中国期刊全文数据库 前3条

1 朱祖会;冯钧;唐志贤;;一种推断XML关键字查询目标节点类型方法[J];信息技术;2013年12期

2 兆霁;怎样创建自己的Web站点?(九)[J];今日电子;1998年09期

3 ;[J];;年期



本文编号:605436

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/605436.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e476c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com