用户信誉度与用户生成内容质量评估模型研究
本文选题:户信誉度 + 用户生成内容质量 ; 参考:《清华大学》2014年硕士论文
【摘要】:Web2.0的到来促进了户成内容的繁荣发展,在促进知识传播与解决信息不对等的同时,同时也产了户恶意破坏他编辑的内容、伪造虚假评论、不尊重版权上传他成果等问题。这些问题的产使得对户信誉度与户成内容质量的评估成为必须。 本先阐述了数据的获取、预处理与特征的抽取。我们以英维基百科作为知识分享类站的代表进研究,下载了英维基百科的数据,针对维基百科的章与作者的特点,我们抽取了量特征。我们随机抽取了3个类作为三个数据集,以数据集下的章与章的作者作为研究对象,并对章质量与作者的信誉度进标注,得到标准数据集。我们以亚马逊评论作为商务评论站的代表进 研究,下载了亚马逊的评论数据,并随机的选取电产品下的评论与评论者作为研究对象,先对数据集进预处理解决数据稀疏性问题,针对亚马逊评论和评论者的特点,,抽取了量特征,并通过标注对评论与评论者进标注,得到标准数据集。 在维基百科中,我们提出了双翼因图模型,该模型利我们所抽取的特征集,将作者的信誉度与章质量的估测结合在统的模型中解决。我们通过L-BFGS算法对模型进学习,从获得各个因的权重,并在测试集上对章质量与作者的信誉度进估测以验证模型的正确性,我们选取了个模型作为基准法与我们的法进较,实验显我们的法在准确率和综合评价指标F1上都有较提。在亚马逊评论中,我们提出了评论因图模型,来检测评论中的虚假评论者与虚假评论,该模型将检测虚假评论者和虚假评论结合在统的模型中解决。我们通过L-BFGS算法对模型进学习,获得各个因的权重,并在测试集中检测虚假评论与虚假评论者以验证模型的正确性,我们还选取了个模型作为基准法与我们的法进较,我们的法在准确率和F1上都有较提。章最后总结了本主要作,并提出今后研究向的重点。
[Abstract]:The arrival of Web2.0 promotes the prosperity and development of Hucheng content. While promoting the dissemination of knowledge and solving the problem of unequal information, it also produces problems such as malicious destruction of his edited content, falsification of false comments and disrespect for copyright uploading of his work. These problems make it necessary to evaluate the reputation and content quality. This paper first describes the data acquisition, preprocessing and feature extraction. We take Wikipedia as the representative of knowledge sharing site and download the data of Wikipedia. According to the characteristics of Wikipedia chapter and author we extract quantitative features. We randomly select three classes as three data sets, take the author of chapter and chapter under the data set as the research object, and annotate the quality of chapter and the reputation of the author, and get the standard data set. We use Amazon Review as the representative of the Business Review Station. The research, download Amazon's comment data, and randomly select the comments and reviewers under the electrical products as the research object, first preprocess the data set to solve the problem of data sparsity, according to the characteristics of Amazon comments and reviewers, The quantitative features are extracted and the standard data set is obtained by annotating comments and commenters. In Wikipedia, we propose a biplane factor-graph model, which combines the author's reputation and chapter quality estimation in a unified model. We use the L-BFGS algorithm to study the model, get the weight of each factor, and estimate the chapter quality and the author's reputation on the test set to verify the correctness of the model. We select a model as the benchmark method to compare with our method. The experiment shows that our method is better in accuracy and comprehensive evaluation index F _ 1. In Amazon comments, we propose a review-cause-graph model to detect false reviewers and false comments, which combines the detection of false reviewers and false comments in a unified model. We use the L-BFGS algorithm to learn the model, get the weight of each factor, and test the false comments and the false commenters in the test set to verify the correctness of the model. We also choose a model as the benchmark method to compare with our method. Our method is more accurate and F1. At the end of the chapter, the main works are summarized, and the key points of the future research are put forward.
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09;TP391.1
【共引文献】
相关期刊论文 前10条
1 王东雷;;基于单纯形算法的优化设计与实现[J];安徽农业科学;2007年36期
2 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
3 柯逍;李绍滋;陈锦秀;;Recognition of Chinese Organization Name Using Co-training[J];Journal of Donghua University(English Edition);2010年02期
4 江爱朋;邵之江;方学毅;郑小青;钱积新;;基于有限存储的简约空间序列二次规划算法研究[J];电路与系统学报;2007年05期
5 朱仁祥;吴乐南;;最低误码率非线性均衡器的快速自适应学习算法[J];电路与系统学报;2012年02期
6 朱克云;具约束条件的四维变分资料同化问题(英文)[J];Advances in Atmospheric Sciences;2001年06期
7 穆穆 ,段晚锁 ,王家城;数值天气预报和气候预测的可预报性问题(英文)[J];Advances in Atmospheric Sciences;2002年02期
8 匡正,王斌,杨华林;GPS资料同化中一种快速优化算法(英文)[J];Advances in Atmospheric Sciences;2003年03期
9 张晓艳,王斌,季仲贞,肖庆农,张昕;四维变分同化方法在台风初始化及其数值模拟中的应用——对9608号(Herb)台风的研究结果(英)[J];Advances in Atmospheric Sciences;2003年04期
10 张昕,刘月巍,王斌,季仲贞;Parallel Computing of a Variational Data Assimilation Model for GPS/MET Observation Using the Ray-Tracing Method[J];Advances in Atmospheric Sciences;2004年02期
相关会议论文 前10条
1 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 穆穆;王家城;;非线性全局及局部最优扰动和第一类可预报性[A];自然、工业与流动——第六届全国流体力学学术会议论文集[C];2001年
3 ;Chapter 9 Full Space and Subspace Methods for Large Scale Image Restoration[A];中国科学院地质与地球物理研究所第十届(2010年度)学术年会论文集(中)[C];2011年
4 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
5 杨月婷;纪颖;王大力;;改进的有限内存BFGS算法的二次终止性质[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
6 刘洪伟;;基于一种新的共轭下降法的函数最小化(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
7 潘宁;郁凡;;用一维变分法校正卫星资料反演湿度的试验研究[A];全国优秀青年气象科技工作者学术研讨会论文集[C];2006年
8 周育锋;韩志刚;王云峰;;ATOVS资料在台风初值化方案中的四维变分同化应用[A];中国气象学会2006年年会“灾害性天气系统的活动及其预报技术”分会场论文集[C];2006年
9 ;Tropical Cyclone Initialization with Dynamical Retrieval from a modified UWPBL Model[A];第七届全国优秀青年气象科技工作者学术研讨会论文集[C];2010年
10 折闪电;郭岩;夏天;程学旗;;A CRF-based Feature Selection Algorithm for Web Information Extraction[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前10条
1 常旭;低维碳纳米材料和冰纳米管的结构与物性的数值模拟研究[D];南京大学;2010年
2 王军;数字几何处理若干关键技术研究[D];中国科学技术大学;2011年
3 刘浩;大规模非线性方程组和无约束优化方法研究[D];南京航空航天大学;2008年
4 陆晓平;锥模型信赖域算法研究[D];南京航空航天大学;2008年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 张爱军;最优变分伴随方法及在近岸水位资料同化中的应用[D];中国科学院海洋研究所;2000年
7 韩桂军;伴随法在潮汐和海温数值计算中的应用研究[D];中国科学院海洋研究所;2001年
8 时贞军;约束优化问题的参数控制算法研究[D];大连理工大学;2002年
9 连淑君;共轭梯度算法的全局收敛性研究[D];大连理工大学;2004年
10 许小永;四维变分和集合卡尔曼滤波同化多普勒雷达资料的方法及其反演暴雨中尺度结构的研究[D];南京信息工程大学;2005年
相关硕士学位论文 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 孙义杰;进化策略算法研究及其在气象优化问题中的应用[D];南京信息工程大学;2011年
5 唐飞;雷达反射率资料质量控制及其在GRAPES三维变分同化中的应用[D];南京信息工程大学;2011年
6 燕成玉;强降水过程中多普勒雷达特征分析及风场反演[D];南京信息工程大学;2011年
7 陈永静;社会情感优化算法在团簇结构优化中的应用研究[D];太原科技大学;2011年
8 刘亚妮;搜索竞价广告关键词优化算法与实验[D];电子科技大学;2011年
9 刘奚洋;POSS有机无机纳米杂化材料的压痕模拟[D];哈尔滨工业大学;2010年
10 何超;捷联惯性导航系统MEMS传感器误差补偿[D];哈尔滨工业大学;2010年
本文编号:1927922
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1927922.html