基于深度学习的Web数据挖掘
发布时间:2020-05-13 22:50
【摘要】:Web是当今世界上最大的公共数据来源,从海量异构、半结构化的Web页面中提取有价值信息逐渐成为数据挖掘的重要任务。传统的基于机器学习的数据挖掘算法虽然已经取得一定效果,但是难以在现有基础上进一步提升,也不能解决更加复杂的文本处理问题,因此,当前Web数据挖掘研究的重心逐渐转向深度学习领域。本文的研究目标为从全球排名前100所英文母语授课高校的海量网页中提取任课教师的个人教育经历,在网络爬虫获取页面数据的基础上,使用先页面分类后信息提取的方法进行挖掘工作。页面分类阶段,提出基于多尺度卷积核的神经网络分类模型(CNN,Convolutional Neural Network)。信息提取阶段,使用分类后数据得到目标信息,提出字符-单词联合特征的双向GRU网络(Gated Recurrent Unit)和双向GRU网络结合CRF(Conditional Random Fields)的信息提取模型,此外,还提出将基于全文理解的问答系统引入信息提取任务中来。通过在多个数据集上,与多个当前被广泛使用的信息提取方法对比,以探索当前最优模型和未来的发展方向。本文研究发现,在页面分类问题上,本文提出的多尺度卷积核神经网络比传统的支持向量机准确率高2.77%,有明显提升;信息提取问题上,双向GRU+CRF的网络取得比传统的CRF和当前最被广泛使用的长短记忆网络更好的效果。本文的算法在实际挖掘任务中实用性较强,具有良好的应用场景。
【图文】:
文档实例 t 的类别 R(t)是已知的,即T { ( )) ( )) R( ))} R( ) C (2-2)通过监督学习的方式对训练文档集合 T 进行学习,可以得到一个模型 M 把训练文档集合 T 中的每个文档实例映射到类别集合 C 中的一个类别中,满足:M T C (2-3)模型 M 可以有多个,其所在集合称为假设空间,学习的目标是从假设空间中找到分类效果最优的模型。学习得到最优模型的过程可以表述为,对于任一训练文档 ,M( )表示模型 M 对该文档的分类结果,该文档真实类别表示为R( ),模型 M 要和真实映射关系 R 对 的分类结果最近似,给定评估函数 f 来评估M( )和R( )一致程度,用损失函数(LostFunction)来度量预测错误的程度,损失函数的种类很多,包括 0-1 损失函数、平方损失函数、对数损失函数和交叉熵损失函数等,都是非负实值函数,记作L(R( ) M( )) ,则最优模型得到:M (щ L(R( ) M( ))) (2-4)文本分类技术的主要步骤包括语料集获取,文本表示模型的建立,文本特征选择,分类方法选取和评估模型选取,如图 2-1 所示:
图 2-2 信息提取模型Fig.2-2 Information Extraction Model在学习阶段,有带标注语料数据集 D,D 中所有文字单元组成集合 H,所有标成集合 N,每个样本表示为文字单元序列 X 和标注序列 Y 一一对应的形式:D (2-6表示第 i 个样本,样本中 ,, 。学习系统基于已有标注构建学习模并用一个条件概率分布表示。信息提取系统根据这个分布模型,对新的样本标注,即找到一个标注序列来最大化目标函数: ě | ) (2-7文本单元根据具体的应用场景可以是一个词、一个短语、一个句子甚至是一个。标注可以是表示信息抽取对象的开始、结束以及其他,具体的标注技术在章详细阐述。信息提取的主要任务包括实体识别与提取、共指消解、关系抽事件抽取。具体任务及关键技术描述如下:(1)实体识别与提取:根据提取应用不同主要包括命名实体识别和开放域实
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.09;TP311.13;TP18
本文编号:2662670
【图文】:
文档实例 t 的类别 R(t)是已知的,即T { ( )) ( )) R( ))} R( ) C (2-2)通过监督学习的方式对训练文档集合 T 进行学习,可以得到一个模型 M 把训练文档集合 T 中的每个文档实例映射到类别集合 C 中的一个类别中,满足:M T C (2-3)模型 M 可以有多个,其所在集合称为假设空间,学习的目标是从假设空间中找到分类效果最优的模型。学习得到最优模型的过程可以表述为,对于任一训练文档 ,M( )表示模型 M 对该文档的分类结果,该文档真实类别表示为R( ),模型 M 要和真实映射关系 R 对 的分类结果最近似,给定评估函数 f 来评估M( )和R( )一致程度,用损失函数(LostFunction)来度量预测错误的程度,损失函数的种类很多,包括 0-1 损失函数、平方损失函数、对数损失函数和交叉熵损失函数等,都是非负实值函数,记作L(R( ) M( )) ,则最优模型得到:M (щ L(R( ) M( ))) (2-4)文本分类技术的主要步骤包括语料集获取,文本表示模型的建立,文本特征选择,分类方法选取和评估模型选取,如图 2-1 所示:
图 2-2 信息提取模型Fig.2-2 Information Extraction Model在学习阶段,有带标注语料数据集 D,D 中所有文字单元组成集合 H,所有标成集合 N,每个样本表示为文字单元序列 X 和标注序列 Y 一一对应的形式:D (2-6表示第 i 个样本,样本中 ,, 。学习系统基于已有标注构建学习模并用一个条件概率分布表示。信息提取系统根据这个分布模型,对新的样本标注,即找到一个标注序列来最大化目标函数: ě | ) (2-7文本单元根据具体的应用场景可以是一个词、一个短语、一个句子甚至是一个。标注可以是表示信息抽取对象的开始、结束以及其他,具体的标注技术在章详细阐述。信息提取的主要任务包括实体识别与提取、共指消解、关系抽事件抽取。具体任务及关键技术描述如下:(1)实体识别与提取:根据提取应用不同主要包括命名实体识别和开放域实
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.09;TP311.13;TP18
【参考文献】
相关博士学位论文 前1条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
本文编号:2662670
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2662670.html