关于维基百科内容质量的研究
发布时间:2021-10-24 23:47
维基百科是一种基于Wiki技术的,用不同语言写成的网络百科全书。随着Web2.0技术的快速发展,维基百科所收录的文章数量和参与编辑的作者数量日益增多。事实证明其中大部分的信息都是可信的,为广大互联网用户提供了方便的内容服务,并作为科研和工业研发中的知识库所广泛使用。然而由快速发展而引起的信息和数据膨胀正在引起业界的重视,同时,维基百科的数据量也呈现着爆发式的增长。在这种情况下如何保证其提供内容的质量、准确性和可信度将成为一个亟待解决的问题。本文从这个角度出发,对维基百科中争议性的条目和非正常编辑行为进行了挖掘,给出了有效的解决方案。在争议性条目挖掘的方面,维基百科的一些文章的用户对同一条目可能持有不同的见解,从而产生对该条目意见上的分歧。发现此类争议性并将其解决无疑将保证维基百科的内容质量,避免因任何用户的偏激行为,促使信息的不准确。我们选取了维基百科的编辑历史作为研究对象,针对编辑历史中所提供的信息,提取与争议度有关的元数据。这种形式相较于传统的针对文本自身的挖掘形式更具效率和可操作性。在对争议度进行评分时,除了从文章自身角度分析之外,我们引入与用户角色结合的方式计算文章的争议度得分...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 关于维基百科
1.2 研究目的及问题描述
1.2.1 研究目的
1.2.2 问题描述
1.3 研究现状
1.4 论文组织结构
2 相关理论基础
2.1 争议性排序方法
2.1.1 互增强理论
2.1.2 算法思想
2.1.3 排序模型
2.2 特征变换理论
2.2.1 特征变换的概念
2.2.2 特征抽取方法
3 基于特殊角色的维基百科争议挖掘
3.1 问题概述
3.2 用户角色定义
3.2.1 争议性用户
3.2.2 强争议性用户
3.3 排序模型
3.3.1 静态排序模型
3.3.2 基于用户角色的争议排序模型
3.3.3 基于用户角色与ACR融合的争议排序模型
3.4 实验设计
3.4.1 数据集
3.4.2 评价方法
3.5 实验结果
3.5.1 参数选择
3.5.2 角色模型的实验结果
3.5.3 融合模型的结果
3.6 本章小结
4 维基百科恶意修改行为挖掘
4.1 任务背景及动机
4.2 基与特征变换的恶意行为识别
4.2.1 原始特征集合构造
4.2.2 特征变换
4.3 实验设计
4.3.1 数据集及实验方法
4.3.2 评价方法
4.4 实验结果
4.4.1 实验结果
4.4.2 实验分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3456231
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 关于维基百科
1.2 研究目的及问题描述
1.2.1 研究目的
1.2.2 问题描述
1.3 研究现状
1.4 论文组织结构
2 相关理论基础
2.1 争议性排序方法
2.1.1 互增强理论
2.1.2 算法思想
2.1.3 排序模型
2.2 特征变换理论
2.2.1 特征变换的概念
2.2.2 特征抽取方法
3 基于特殊角色的维基百科争议挖掘
3.1 问题概述
3.2 用户角色定义
3.2.1 争议性用户
3.2.2 强争议性用户
3.3 排序模型
3.3.1 静态排序模型
3.3.2 基于用户角色的争议排序模型
3.3.3 基于用户角色与ACR融合的争议排序模型
3.4 实验设计
3.4.1 数据集
3.4.2 评价方法
3.5 实验结果
3.5.1 参数选择
3.5.2 角色模型的实验结果
3.5.3 融合模型的结果
3.6 本章小结
4 维基百科恶意修改行为挖掘
4.1 任务背景及动机
4.2 基与特征变换的恶意行为识别
4.2.1 原始特征集合构造
4.2.2 特征变换
4.3 实验设计
4.3.1 数据集及实验方法
4.3.2 评价方法
4.4 实验结果
4.4.1 实验结果
4.4.2 实验分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
本文编号:3456231
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3456231.html