文本型Web内容中隐含实体关联的挖掘、推理与应用
发布时间:2020-03-27 12:06
【摘要】:文本型Web内容(Textual Web Content,TWC)包含电子邮件、网页新闻等。以TWC文档中实体关联为基础,可完成数据获取、关系强度评估、社交网络分析等任务。隐含实体关联(Latent Entity Association,LEA)表示两个实体通过不同TWC文档中的中间实体间接地产生关联。发现并利用LEA有利于改善基于实体关联的分析方法的结果,但需要解决这些问题。(1)理论角度:TWC数据中实体关联的建模、实体关联的评估及排序。LEA是不确定的,需要对这种不确定性知识进行表示和推理。并非所有的LEA都对后续的任务有价值,因此需要对LEA按强度进行排序。(2)应用角度:TWC数据的获取、交互式系统。通过获取互联网中最新的TWC文档而分析得出的LEA将具有更好的时效性。交互式系统应支持由用户自定义TWC数据和目标实体,并将分析过程的各步骤可视化结果展示给用户。从理论的角度,本文重点研究了 TWC数据中实体关联的建模和实体关联的评估及排序,分为三方面:(1)本文给出了LEA的定义并提出了实体关联贝叶斯网(Entity Association Bayesian Network,EABN)以对LEA的不确定性进行建模。EABN模型将实体视作变量,使用有向无环图表达实体间的相互依赖,使用条件概率表则量化实体间的相互依赖。(2)本文提出了 SBIC策略以加速EABN的结构学习。在EABN的结构选择过程中,自组织映射可利用TWC中实体的稀疏性将一个TWC数据集划分为若干个子集,我们不断地选择某个子集来评估候选结构中的某条边。(3)本文提出的EABN模型可通过概率推理按强度排序LEA。通过EABN概率推理产生的实体关联列表中大部分是LEA,每个实体关联涉及的两个实体在随机子集中的实例数比值的标准差随着EABN排名增大而增大;通过EABN概率推理也可以找出没有出现在新TWC数据中,但与新TWC数据相关的实体。从应用的角度,本文设计并实现了 TWC数据的获取系统和交互式系统:(1)本文开发了一个网络爬虫以获取互联网中最新的TWC文档。该网络爬虫通过搜索引擎的自定义查询获取历史网页网址列表;使用PhantomJS执行复杂地页面渲染;爬虫获取的数据存储在MongoDB数据库。(2)本文开发的交互式系统支持自定义以TWC文档和目标实体、分析结果可视化和持久化,以及跨平台、跨终端等特性。
【图文】:
够产生G的多个变体并分别计算其SBIC评分。然后算法选择SBIC评分最高的变逡逑体作为新的基准结构并继续产生其变体及SBIC评分,直到无法找到一个SBIC评逡逑分更高的变体为止。算法2.3展示了上述过程。图2.3展示了算法2.3的执行流程。逡逑算法2.3获得SBIC评分最高的EABN结构逡逑输入:逡逑Be=邋(Ge,邋Pe),邋Ge=邋(V,邋E)逡逑Gc,邋EABN邋5e初始的空结构逡逑输出:逡逑Gc,邋SBIC评分最高的的结构逡逑1.
EABN包含个|^1节点和|£|条有向弧。算法可向一个无有向弧的DAG添加晝*逡逑(ih-1)条有向弧,再考虑不与己有的间条有向弧重复,则存在m*邋(W-1)邋-|句逡逑种添加有向弧的变体。添加或翻转有向弧后还可能导致成环,需要忽略这些成环逡逑的变体。在每一轮迭代时,我们只能删除或翻转己有的阎条有向弧,所以删除一逡逑条有向弧的变体是闷个,翻转一条有向弧的变体也是间个。每一轮迭代,需要处逡逑理增加,删除,翻转有向弧的变体共(m*邋(ih-1)-间)+间+间=(m-i)邋+间逡逑个,假设迭代了外轮才找到最大值,则算法2.3的时间复杂度为?(凡㈨2)。逡逑算法2.3是一种简单的贪心搜索算法,也称为爬山算法,该算法每次从当前解逡逑的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。爬山算逡逑法主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。本文采用爬山逡逑法做结构搜索的原因有三点。(1)爬山法计算量较小,,适用于处理TWC中海量的逡逑实体关联。(2)本文在构建和应用EABN过程中使用的爬山法、BIC评分、极大逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.09
本文编号:2602931
【图文】:
够产生G的多个变体并分别计算其SBIC评分。然后算法选择SBIC评分最高的变逡逑体作为新的基准结构并继续产生其变体及SBIC评分,直到无法找到一个SBIC评逡逑分更高的变体为止。算法2.3展示了上述过程。图2.3展示了算法2.3的执行流程。逡逑算法2.3获得SBIC评分最高的EABN结构逡逑输入:逡逑Be=邋(Ge,邋Pe),邋Ge=邋(V,邋E)逡逑Gc,邋EABN邋5e初始的空结构逡逑输出:逡逑Gc,邋SBIC评分最高的的结构逡逑1.
EABN包含个|^1节点和|£|条有向弧。算法可向一个无有向弧的DAG添加晝*逡逑(ih-1)条有向弧,再考虑不与己有的间条有向弧重复,则存在m*邋(W-1)邋-|句逡逑种添加有向弧的变体。添加或翻转有向弧后还可能导致成环,需要忽略这些成环逡逑的变体。在每一轮迭代时,我们只能删除或翻转己有的阎条有向弧,所以删除一逡逑条有向弧的变体是闷个,翻转一条有向弧的变体也是间个。每一轮迭代,需要处逡逑理增加,删除,翻转有向弧的变体共(m*邋(ih-1)-间)+间+间=(m-i)邋+间逡逑个,假设迭代了外轮才找到最大值,则算法2.3的时间复杂度为?(凡㈨2)。逡逑算法2.3是一种简单的贪心搜索算法,也称为爬山算法,该算法每次从当前解逡逑的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。爬山算逡逑法主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。本文采用爬山逡逑法做结构搜索的原因有三点。(1)爬山法计算量较小,,适用于处理TWC中海量的逡逑实体关联。(2)本文在构建和应用EABN过程中使用的爬山法、BIC评分、极大逡逑
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.09
【参考文献】
相关期刊论文 前3条
1 李佳欣;潘伟;;PhantomJS在Web自动化测试中的应用[J];计算机光盘软件与应用;2013年18期
2 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
3 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
本文编号:2602931
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2602931.html