专家主页信息抽取系统的设计与实现

发布时间：2021-09-06 08:01

　　政产学研合作,作为当下提升我国中小型企业高新技术创新能力的重要内容,在推进过程中却面临人才引进的困难。其中,政府单位与学术圈的脱节、科研机构与企业的信息不对称是造成这一问题的主要原因。互联网中的专家主页信息,可以帮助用户了解专家,为引进工作提供支持。但专家主页也存在着站点分布分散、文本表述不清晰等问题,需要整合相关主页资源并从中抽取有效信息,为用户提供统一、便捷、准确的专家信息查阅方案。为实现上述目标,本文设计并实现了基于Web信息抽取技术的专家主页信息抽取系统。系统实质为专家信息平台的子模块,完成平台中专家画像的构建。其中,专家画像定义为包含专家总体概况、研究方向等信息的可视化页面,由本文抽取的文本组合而成。本论文的主要工作内容如下:（1）系统以整个平台给出的专家名单为目标,从网络查询结果中自动化识别出主页站点,并结合HTML结构、中英文语法完成网页正文定位、筛选、规范化处理,实现数据采集工作。（2）数据的预处理包括构建语料库、标注数据集、选择特征向量等步骤。系统以文本解析、规则匹配给出的结果,实现自动化标注方案。考虑字段的文本语义以及所在语境结构,引入Word2Vec、TF-IDF...

【文章来源】：东南大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

专家主页信息抽取系统的设计与实现

DOM树结构图

工程结构,向量

第二章相关理论与技术9Word2Vec模型是一个三层的神经网络，包括接受初始向量的输入层，进行向量相加的投影层，以及学习损失函数的Softmax层。Word2Vec属于语言模型的范畴，词向量计算只是模型的副产物，而词向量的意义在于机器对于词的语义的学习，往往可以作为其他训练模型的语义特征。从上下文预测中心词以及中心词发散上下文两个角度，Word2Vec分别有CBOW[29]（ContinueBag-of-WordModel）和Skip-Gram[30]模型，架构如图2-2所示。理论上的模型的输入是每个单词的One-hot向量，训练完成后每个单词的向量被保存在了投影层的矩阵中。但在实际的工程化中，提出了分层Softmax以及负采样两种加速方案。以分层Softmax方案对应的CBOW训练模型为例，输入为中心词对应上下文中的所有词向量，其维度大小与最终的词向量一致并随机初始化。在投影层中，将上下文所有的词向量相加后平均。输出层区别于传统的线型结构，引入树形结构，将全词典的分类损失转变为多层二分选择的最小化损失。具体的结构如下图2-3所示。图2-3分层Softmax工程结构以输出层的霍夫曼树为例，借助分层Softmax的思想，对于每一个非叶子结点只有正负这两种分类选择，其概率以及单个节点的交叉熵可以分别表示为：TVKXY2[=""\0]^_`ab（2-5）T"KXY2[=0]^_`ab"\0]^_`ab（2-6） TKXY2[=TVKXY2["cd[1TVKXY2[]d（2-7）上述公式中2为非叶子节点对应的向量。对于词典中的任意词，都有从根节点到该词对应的叶子节点的路径。因此对于叶子节点对应词的概率就为从根节点开始到叶子结

模型图,模型,超平面,向量

东南大学硕士学位论文10点结束，中间每一次分类都会产生一个概率，将产生的概率相乘就得到结果，如下公式所示：T1K(1)[=∏TKXY2[32jk（2-8）由此式的对数似然函数，最大化交叉熵，采用随机梯度上升的方法求出2为：2=2+[1TVKXY2[]X（2-9）节点的辅助向量更新不是最终目标，词典中词所对应的词向量也会随着损失函数的约束同步更新。同时，中心词的更新分量会平均到上下文的词向量更新，一次训练可以同时对多个向量进行更新。考虑到公式中的X和2是对称的，则对于词典中每个词的词向量1为：1=1+[1TVKXY2[]2（2-10）2.3算法模型及相关技术2.3.1SVM分类器模型支持向量机[31]（SVM，SupportVectorMachine），依据训练样本的分布情况，可以分为线性与非线性两大类。该模型的目标是要找到一个合理的分割超平面B，使得样本尽可能的分离开来。定义平行于超平面、分布在其两侧的平面为划分平面，当这两个平面间的距离达到最大时，得到最佳训练效果。给定线性二分类问题，SVM中不同的超平面产生了多组间隔距离，如图2-4所示。图2-4SVM二分类模型

【参考文献】：
期刊论文
[1]基于DOM树的可适应性Web信息抽取[J]. 李朝,彭宏,叶苏南,张欢,杨亲遥.  计算机科学. 2009(07)
[2]HTML文件的文本信息预处理技术[J]. 王志琪,王永成.  计算机工程. 2006(05)
[3]中文文本分类中的特征选择算法研究[J]. 胡佳妮,徐蔚然,郭军,邓伟洪.  光通信研究. 2005(03)
[4]基于统计的网页正文信息抽取方法的研究[J]. 孙承杰,关毅.  中文信息学报. 2004(05)
[5]基于Ontology的信息抽取[J]. 廖乐健,曹元大,李新颖.  计算机工程与应用. 2002(23)

本文编号：3387083

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3387083.html

上一篇：稀疏低秩表示模型的研究及在癌症测序数据中的应用
下一篇：国内外生鲜电商超市供应链模式对比分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|