当前位置:主页 > 社科论文 > 图书档案论文 >

面向科学研究领域的信息制图法研究与实现

发布时间:2020-08-08 20:36
【摘要】:科学研究领域中信息检索的主要任务是按照用户对科研文献相关信息的需要对信息来源进行甄选排序,从浩如烟海的科研文献中精确地发现相关信息。本文跳脱传统检索系统的窠臼,提出了一种适用于科研文献检索场景的信息制图法,将检索结果以信息地图的形式进行展示。这种信息地图除了能够传达传统上信息检索的结果之外,还特别强调检索结果之间信息传递的情况。本文中设计的信息制图法主要分为科研文献的表示学习、信息网络生成和信息网络优化三个部分。为了使多种丰富的信息资源统筹组合,将多种异质信息融合到同一个表示向量空间中,本文采纳了基于Skip-gram模型的段向量文本表示算法和DeepWalk网络表示学习算法,并提出了两种将以上模型合二为一的综合信息表示学习方案:基于语义链接的综合向量表示(Mixed Vector Representation with Semantic Link,MVRSL)和基于预训练嵌入的综合向量表示方案(Mixed Vector Representation with Pre-trained Embedding,MVRPE)。本文以实验数据验证了以上方案的有效性和高效性,在文本分类、链接预测等任务上均得到了高于对照算法5%-10%的准确率。从目标文档出发生成信息网络的过程中,本文基于综合信息的文档表示,以及一个链接预测器,迭代地纳入相关性最高的文档并记录下文档间的链接关系。随后,为了优化生成网络的可读性,本文提出了基于结点度数的关键链路发现方法(Degree Centrality-based Link Importance Metrics,DLIM)。利用这种度量方式,可以保障在网络连通度衰减5%以内的情况下,得到信息网络的核心成分。最后,本文设计了一个实验性的信息地图检索系统,该系统部署了本文提出的信息制图法方案,并且能够将得到的信息网络绘制成信息地图进行展示。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G252.7
【图文】:

共现关系,主题,词汇,可观测


在的随机组合的主题来表示,而每个主题又是通过在所有词汇上的一个具体的分逡逑布来刻画的。对于一个包含M个文档,每个文档长度为%的语料库D,生成过程逡逑如下,如图2-2所示:逡逑选择一个0;?£>卜⑷,其中i£{l,…,M},邋Dir(a)是具有一个对称参数a的狄逡逑利克雷分布,这个分布通常是稀疏的0<1)。逡逑选择一个外?爪r0g),其中ke{lK},邋(B通常是稀疏的。逡逑对位置是i,j的每一个词,其中j邋£逡逑7逡逑

联合分布,联合分布,后验概率,随机变量


逦M逡逑图2-1邋pLSA模型逡逑可观测到的词汇和文档的共现关系表示为(w,d),c表示词汇的主题。pLSA逡逑将每个共现对出现的概率模型化为多个条件独立的多项式分布的组合:逡逑P(w,邋d)邋=邋^邋P(c)P(d|c)P(w|c)邋=邋P(d)邋^邋P{c\(T)P{w\c)逦(2邋—邋3)逡逑C逦C逡逑在潜在狄利克雷分布ai]邋(Latent邋Dirichlet邋Allocation,LDA)中,每一个文档逡逑可以被视为许多个主题的融合体,而这些主题是由LDA通过一定方式分配给这逡逑个文档的。这与pLSA的思想类似,区别之处在于LDA中假设了主题分布具有逡逑一个稀疏的狄利克雷先验。这个稀疏的狄利克雷先验包含的直观事实是,每个文逡逑档实际上只包含了众多主题中的一小部分,而主题中最活跃的也只是一小部分词。逡逑LDA是pLSA模型的一种推广形式

模型图,模型,袋模


Embedding邋)0逡逑Mikolov等人[16]在2013年首次提出了利用大型的语料库计算词汇的连续向逡逑量空间表示的两种模型架构,如图2-3,通过这种方式训练出的词向量可以在很逡逑低的计算成本上获得准确度的大幅提升,同时,这种词向量还能够准确捕捉不同逡逑词汇在语义和语法上的相似度。逡逑SN0UT邋PR04£CT;0N邋OUTPUT逦PROJHCTION邋OUTPUT逡逑媭州逦4逦丨略2}逡逑I邋卜<逦—1-1}逡逑i?—-逦SUM逦,,邋:邋J逡逑?—L邋):… 丨吨逦蝴:…:逡逑\逦\逦\逦,;逦t逦i逦;邋f邋i逡逑?”i逦卜,.逦^逦i咖n逡逑v^{-2)邋i逦丨逦★丨邋w{t+2}逡逑CBOW逦Skip-gram逡逑图2-3邋CBOW模型和Skip-gram模型逡逑连续词袋模型(Continuous邋Bag-of-Words,邋CBOW)与前馈神经网络语言模逡逑型(feedforward邋Neural邋Net邋Language邋Model,NNLM)类似。CBOW邋中,所有词逡逑汇都同时投射到同一个位置,通常的做法是取所有向量平均值。“词袋”邋一词说逡逑明模型中所有词汇的位置忽略不计

【参考文献】

相关期刊论文 前2条

1 王家耀;;关于信息时代地图学的再思考[J];测绘科学技术学报;2013年04期

2 任卓明;邵凤;刘建国;郭强;汪秉宏;;基于度与集聚系数的网络节点重要性度量方法研究[J];物理学报;2013年12期



本文编号:2786081

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2786081.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45a8b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com