面向微博数据的命名实体识别研究与实现
发布时间:2021-03-05 13:59
随着微博日趋流行,它已经成为一种新型的信息发布和传播的社交媒介。截止到2012年12月底,新浪微博的注册用户已达5亿多。微博数据也随之增多,其中包含大量对组织或个人有价值的信息。从而对微博进行信息抽取、分析以及自然语言处理成为当前研究热点。命名实体识别作为这些研究的基础工作就显得尤为重要,但当前针对微博数据的命名实体识别研究还很不成熟,传统的命名实体识别方法在微博数据上无法获得令人满意的结果,从而阻碍后续工作的进行。本文主要研究微博数据上命名实体识别任务。微博数据的一些特有属性导致了传统模型的失效,究其根本主要有以下四点原因:一是每条微博篇幅短小,包含信息量有限,对于命名实体识别来说,难以充分融合大量相关信息;二是微博中充斥了大量噪音数据,加上模型抗噪能力差的问题,导致模型在训练时发生“过拟合”现象;三是对于微博的研究往往缺乏大量完备的训练语料导致模型训练不足,为获取训练数据需要耗费大量的人力资源;四是微博数据具有信息更新速度快的特点,模型适应能力差导致发生模型“欠拟合”现象。经实验表明,传统命名实体识别方法在微博数据上F1值会下降20%之多。为了解决上述问题,本文综合了多种技术实现了...
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及应用
1.2 研究任务及国内外发展情况
1.3 中文微博数据上命名实体识别研究的难点
1.3.1 中文命名实体识别研究的难点
1.3.2 微博数据上命名实体识别研究的难点
1.4 研究重点及目标
1.5 文章结构安排
第2章 命名实体识别相关方法
2.1 命名实体识别结果的评价
2.2 基于规则的方法
2.3 基于统计的方法
2.3.1 隐马尔可夫模型
2.3.2 最大熵模型
2.4 规则和统计相结合的方法
2.5 tweets上命名实体识别的研究
2.6 本章小结
第3章 基于CRFS模型的命名实体识别
3.1 图模型
3.1.1 有向图模型
3.1.2 无向图模型
3.2 条件随机场
3.3 CRFs参数估计
3.3.1 极大似然估计
3.3.2 迭代缩放法
3.3.3 L-BFGS算法
3.4 模型预测
3.5 基于CRFs中文命名实体识别
3.6 本章小结
第4章 特征选择
4.1 字典的建立
4.2 可用特征
4.2.1 当前词特征
4.2.2 当前词上下文特征
4.3 特征选择
4.4 微博特征
4.5 本章小结
第5章 新浪微博上命名实体识别的实现
5.1 命名实体识别
5.1.1 KNN分类器
5.1.2 半监督命名实体识别框架的实现
5.2 数据规范化
5.3 实体归一化
5.3.1 实体归一化算法
5.3.2 实体归一化对命名实体识别结果的修正
5.4 本章小结
第6章 实验与结论
6.1 微博数据获取
6.2 基于半监督框架的微博上命名实体识别结果
6.3 数据规范化的结果及影响
6.4 实体归一化的结果及影响
6.5 本章小结
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]融合多特征的最大熵汉语命名实体识别模型[J]. 张玥杰,徐智婷,薛向阳. 计算机研究与发展. 2008(06)
[2]一种基于语义及统计分析的Deep Web实体识别机制[J]. 寇月,申德荣,李冬,聂铁铮. 软件学报. 2008(02)
本文编号:3065321
【文章来源】:东北大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及应用
1.2 研究任务及国内外发展情况
1.3 中文微博数据上命名实体识别研究的难点
1.3.1 中文命名实体识别研究的难点
1.3.2 微博数据上命名实体识别研究的难点
1.4 研究重点及目标
1.5 文章结构安排
第2章 命名实体识别相关方法
2.1 命名实体识别结果的评价
2.2 基于规则的方法
2.3 基于统计的方法
2.3.1 隐马尔可夫模型
2.3.2 最大熵模型
2.4 规则和统计相结合的方法
2.5 tweets上命名实体识别的研究
2.6 本章小结
第3章 基于CRFS模型的命名实体识别
3.1 图模型
3.1.1 有向图模型
3.1.2 无向图模型
3.2 条件随机场
3.3 CRFs参数估计
3.3.1 极大似然估计
3.3.2 迭代缩放法
3.3.3 L-BFGS算法
3.4 模型预测
3.5 基于CRFs中文命名实体识别
3.6 本章小结
第4章 特征选择
4.1 字典的建立
4.2 可用特征
4.2.1 当前词特征
4.2.2 当前词上下文特征
4.3 特征选择
4.4 微博特征
4.5 本章小结
第5章 新浪微博上命名实体识别的实现
5.1 命名实体识别
5.1.1 KNN分类器
5.1.2 半监督命名实体识别框架的实现
5.2 数据规范化
5.3 实体归一化
5.3.1 实体归一化算法
5.3.2 实体归一化对命名实体识别结果的修正
5.4 本章小结
第6章 实验与结论
6.1 微博数据获取
6.2 基于半监督框架的微博上命名实体识别结果
6.3 数据规范化的结果及影响
6.4 实体归一化的结果及影响
6.5 本章小结
第7章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]融合多特征的最大熵汉语命名实体识别模型[J]. 张玥杰,徐智婷,薛向阳. 计算机研究与发展. 2008(06)
[2]一种基于语义及统计分析的Deep Web实体识别机制[J]. 寇月,申德荣,李冬,聂铁铮. 软件学报. 2008(02)
本文编号:3065321
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3065321.html