基于深度学习的Web数据挖掘

发布时间：2020-05-13 22:50

【摘要】：Web是当今世界上最大的公共数据来源,从海量异构、半结构化的Web页面中提取有价值信息逐渐成为数据挖掘的重要任务。传统的基于机器学习的数据挖掘算法虽然已经取得一定效果,但是难以在现有基础上进一步提升,也不能解决更加复杂的文本处理问题,因此,当前Web数据挖掘研究的重心逐渐转向深度学习领域。本文的研究目标为从全球排名前100所英文母语授课高校的海量网页中提取任课教师的个人教育经历,在网络爬虫获取页面数据的基础上,使用先页面分类后信息提取的方法进行挖掘工作。页面分类阶段,提出基于多尺度卷积核的神经网络分类模型(CNN,Convolutional Neural Network)。信息提取阶段,使用分类后数据得到目标信息,提出字符-单词联合特征的双向GRU网络(Gated Recurrent Unit)和双向GRU网络结合CRF(Conditional Random Fields)的信息提取模型,此外,还提出将基于全文理解的问答系统引入信息提取任务中来。通过在多个数据集上,与多个当前被广泛使用的信息提取方法对比,以探索当前最优模型和未来的发展方向。本文研究发现,在页面分类问题上,本文提出的多尺度卷积核神经网络比传统的支持向量机准确率高2.77%,有明显提升;信息提取问题上,双向GRU+CRF的网络取得比传统的CRF和当前最被广泛使用的长短记忆网络更好的效果。本文的算法在实际挖掘任务中实用性较强,具有良好的应用场景。
【图文】：

模型图,文本分类,模型,损失函数

文档实例 t 的类别 R(t)是已知的，即T { ( )) ( )) R( ))} R( ) C (2-2)通过监督学习的方式对训练文档集合 T 进行学习，可以得到一个模型 M 把训练文档集合 T 中的每个文档实例映射到类别集合 C 中的一个类别中，满足：M T C (2-3)模型 M 可以有多个，其所在集合称为假设空间，学习的目标是从假设空间中找到分类效果最优的模型。学习得到最优模型的过程可以表述为，对于任一训练文档，M( )表示模型 M 对该文档的分类结果，该文档真实类别表示为R( )，模型 M 要和真实映射关系 R 对的分类结果最近似，给定评估函数 f 来评估M( )和R( )一致程度，用损失函数（LostFunction）来度量预测错误的程度，损失函数的种类很多，包括 0-1 损失函数、平方损失函数、对数损失函数和交叉熵损失函数等，都是非负实值函数，记作L(R( ) M( )) ，则最优模型得到：M (щ L(R( ) M( ))) (2-4)文本分类技术的主要步骤包括语料集获取，文本表示模型的建立，文本特征选择，分类方法选取和评估模型选取，如图 2-1 所示：

模型图,信息提取,模型

图 2-2 信息提取模型Fig.2-2 Information Extraction Model在学习阶段，有带标注语料数据集 D，D 中所有文字单元组成集合 H，所有标成集合 N，每个样本表示为文字单元序列 X 和标注序列 Y 一一对应的形式：D (2-6表示第 i 个样本，样本中，，。学习系统基于已有标注构建学习模并用一个条件概率分布表示。信息提取系统根据这个分布模型，对新的样本标注，即找到一个标注序列来最大化目标函数： ě | ) (2-7文本单元根据具体的应用场景可以是一个词、一个短语、一个句子甚至是一个。标注可以是表示信息抽取对象的开始、结束以及其他，具体的标注技术在章详细阐述。信息提取的主要任务包括实体识别与提取、共指消解、关系抽事件抽取。具体任务及关键技术描述如下：（1）实体识别与提取：根据提取应用不同主要包括命名实体识别和开放域实
【学位授予单位】：上海交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP393.09;TP311.13;TP18

【参考文献】