当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web实体活动融合关键技术研究

发布时间:2018-11-09 08:20
【摘要】:如今,互联网技术的发展日新月异,互联网已经逐步渗透到了人们的生活之中,并成为了人们获取信息、传播消息的重要渠道。伴随着Web中信息的爆炸式增长与迅速传播,Web已经成为了一个重要信息源,这些蕴含在Web中的信息有着重要的研究意义与价值。对Web中的海量数据进行分析、挖掘、处理,可以获取丰富的信息价值,这些信息可以被集成在如市场情报分析、舆论分析以及电子商务等系统中,为人们提供深度信息服务。 Web按其所蕴含信息的“深度”可划分为Surface Web和Deep Web。Surface Web (?)旨可以通过URL链接而被传统搜索引擎搜索到的页面。Deep Web是指Web中可被访问的在线数据库,它们的内容存储在真实的数据库中。这些内容只有在通过查询接口进行查询时才会由Web服务器动态生成页面并把结果页面返回给访问者。 本文的研究对象是Web实体活动。所谓Web实体活动,即一个确定的实体,在一个确定的时间和一个确定的地点所做出的一个确定的活动。Web实体活动的集合便构成了Web实体的踪迹。Web实体踪迹具有重要的分析价值,比如就业市场情报分析中,一个企业的发展踪迹,对于求职者具有很好的参考价值。 不同于传统集成系统研究对象主要来自于Deep Web页面中较为结构化的部分,Web实体活动集成系统所研究的对象主要来源于Web页面中的无结构化文本片段,通过活动抽取从自然语句中获取Web实体活动信息,并将其转化为结构化模式记录。 本文主要研究Web实体活动融合关键技术。作为Web实体活动集成的最后一个步骤,Web实体活动融合将抽取所得的Web实体活动记录中指向同一Web实体活动的不同表象记录进行整合,得到一个完整准确的实体活动记录。 Web实体活动融合包含两个主要部分,一个是Web实体活动重复记录检测,另一个是Web实体活动真值发现。前者将指向同一Web实体活动的不同表象记录筛选出来,为Web实体活动真值发现服务,通过解决数据冲突、补充缺失数据并发现真值,最终得到完整准确的记录。本文针对这两个部分展开研究,并分别提出针对Web实体活动的方法,主要工作如下: 1.基于K-means聚类与SVM分类技术对Web实体活动记录进行重复检测,通过计算两个记录在每个维度上的相似度来获取他们的比较向量,将重复检测问题转化为向量分类问题。在获取比较向量后,先通过聚类获取一定的样本集合,然后使用该样本集合训练SVM分类器。本文通过观察Web实体活动问题特征,在结合传统计算方法的基础上,利用句子的结构特征来计算比较向量并使用加权欧几里得距离公式改进了聚类效果,最后采用迭代式分类方法对比较向量进行了分类。 2.提出一种基于马尔科夫逻辑网的Web实体活动真值发现方法。本方法利用马尔科夫逻辑网能够处理不确定性以及不完整甚至矛盾的知识的特性,在考虑传统数据融合特征的基础之上,结合维度间的语义联系,制定推理规则,来达到发现真值的目的,提高了Web实体活动真值发现的准确度。
[Abstract]:......
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09

【参考文献】

相关期刊论文 前1条

1 董旭,魏振军;一种加权欧氏距离聚类方法[J];信息工程大学学报;2005年01期



本文编号:2319869

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2319869.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户75394***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com