专家主页信息抽取系统的设计与实现

发布时间:2021-09-06 08:01
  政产学研合作,作为当下提升我国中小型企业高新技术创新能力的重要内容,在推进过程中却面临人才引进的困难。其中,政府单位与学术圈的脱节、科研机构与企业的信息不对称是造成这一问题的主要原因。互联网中的专家主页信息,可以帮助用户了解专家,为引进工作提供支持。但专家主页也存在着站点分布分散、文本表述不清晰等问题,需要整合相关主页资源并从中抽取有效信息,为用户提供统一、便捷、准确的专家信息查阅方案。为实现上述目标,本文设计并实现了基于Web信息抽取技术的专家主页信息抽取系统。系统实质为专家信息平台的子模块,完成平台中专家画像的构建。其中,专家画像定义为包含专家总体概况、研究方向等信息的可视化页面,由本文抽取的文本组合而成。本论文的主要工作内容如下:(1)系统以整个平台给出的专家名单为目标,从网络查询结果中自动化识别出主页站点,并结合HTML结构、中英文语法完成网页正文定位、筛选、规范化处理,实现数据采集工作。(2)数据的预处理包括构建语料库、标注数据集、选择特征向量等步骤。系统以文本解析、规则匹配给出的结果,实现自动化标注方案。考虑字段的文本语义以及所在语境结构,引入Word2Vec、TF-IDF... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

专家主页信息抽取系统的设计与实现


DOM树结构图

工程结构,向量


第二章相关理论与技术9Word2Vec模型是一个三层的神经网络,包括接受初始向量的输入层,进行向量相加的投影层,以及学习损失函数的Softmax层。Word2Vec属于语言模型的范畴,词向量计算只是模型的副产物,而词向量的意义在于机器对于词的语义的学习,往往可以作为其他训练模型的语义特征。从上下文预测中心词以及中心词发散上下文两个角度,Word2Vec分别有CBOW[29](ContinueBag-of-WordModel)和Skip-Gram[30]模型,架构如图2-2所示。理论上的模型的输入是每个单词的One-hot向量,训练完成后每个单词的向量被保存在了投影层的矩阵中。但在实际的工程化中,提出了分层Softmax以及负采样两种加速方案。以分层Softmax方案对应的CBOW训练模型为例,输入为中心词对应上下文中的所有词向量,其维度大小与最终的词向量一致并随机初始化。在投影层中,将上下文所有的词向量相加后平均。输出层区别于传统的线型结构,引入树形结构,将全词典的分类损失转变为多层二分选择的最小化损失。具体的结构如下图2-3所示。图2-3分层Softmax工程结构以输出层的霍夫曼树为例,借助分层Softmax的思想,对于每一个非叶子结点只有正负这两种分类选择,其概率以及单个节点的交叉熵可以分别表示为:TVKXY2[=""\0]^_`ab(2-5)T"KXY2[=0]^_`ab"\0]^_`ab(2-6) TKXY2[=TVKXY2["cd[1TVKXY2[]d(2-7)上述公式中2为非叶子节点对应的向量。对于词典中的任意词,都有从根节点到该词对应的叶子节点的路径。因此对于叶子节点对应词的概率就为从根节点开始到叶子结

模型图,模型,超平面,向量


东南大学硕士学位论文10点结束,中间每一次分类都会产生一个概率,将产生的概率相乘就得到结果,如下公式所示:T1K(1)[=∏TKXY2[32jk(2-8)由此式的对数似然函数,最大化交叉熵,采用随机梯度上升的方法求出2为:2=2+[1TVKXY2[]X(2-9)节点的辅助向量更新不是最终目标,词典中词所对应的词向量也会随着损失函数的约束同步更新。同时,中心词的更新分量会平均到上下文的词向量更新,一次训练可以同时对多个向量进行更新。考虑到公式中的X和2是对称的,则对于词典中每个词的词向量1为:1=1+[1TVKXY2[]2(2-10)2.3算法模型及相关技术2.3.1SVM分类器模型支持向量机[31](SVM,SupportVectorMachine),依据训练样本的分布情况,可以分为线性与非线性两大类。该模型的目标是要找到一个合理的分割超平面B,使得样本尽可能的分离开来。定义平行于超平面、分布在其两侧的平面为划分平面,当这两个平面间的距离达到最大时,得到最佳训练效果。给定线性二分类问题,SVM中不同的超平面产生了多组间隔距离,如图2-4所示。图2-4SVM二分类模型

【参考文献】:
期刊论文
[1]基于DOM树的可适应性Web信息抽取[J]. 李朝,彭宏,叶苏南,张欢,杨亲遥.  计算机科学. 2009(07)
[2]HTML文件的文本信息预处理技术[J]. 王志琪,王永成.  计算机工程. 2006(05)
[3]中文文本分类中的特征选择算法研究[J]. 胡佳妮,徐蔚然,郭军,邓伟洪.  光通信研究. 2005(03)
[4]基于统计的网页正文信息抽取方法的研究[J]. 孙承杰,关毅.  中文信息学报. 2004(05)
[5]基于Ontology的信息抽取[J]. 廖乐健,曹元大,李新颖.  计算机工程与应用. 2002(23)



本文编号:3387083

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3387083.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户744f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com