当前位置:主页 > 文艺论文 > 广告艺术论文 >

博客作者性别分类的研究

发布时间:2018-07-24 15:12
【摘要】:博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的研究工作。有许多的商业公司利用博客中的信息来提供增值服务,比如博客搜索、博客主题追踪以及人们对产品和服务意见的情感分析。博客作者的性别分类是一个有许多商业应用价值的研究领域。例如,能够帮助用户找到什么主题和产品被男性和女性谈论的最多,以及什么产品和服务被男性和女性喜欢或是不喜欢,利用这些信息能够用于制作有针对性的广告与开发针对性的产品。所以,对博客作者性别分类的研究具有重要的意义。 论文主要实现了博客作者的性别分类,并重点研究了如何提高博客作者性别分类的准确度,对于给定一篇博文,提取用于博客作者性别分类的特征类,利用带有课题研究得到的归并高分类能力特征的候选特征集的朴素贝叶斯分类器,能够对博文的作者进行判别归类,并且分类准确度在实验中可以达到74.49%,具体实现主要包括四部分:第一步是提取用于博客作者性别分类的特征类,课题采用的特征类为基本特征类与词性序列特征类;第二步是实现用于博客作者性别分类的特征选择方法,并利用特征选择方法选择出候选特征集,课题采用的特征选择方法是基于单个特征选择标准的特征选择方法与集成特征选择方法;第三步是结合带有候选特征集的朴素贝叶斯分类器与十折交叉验证法,从多组候选特征集中选择最优博客作者性别分类特征集;第四步是为了提高博客作者性别分类的准备度,设计并实现了归并高分类能力的候选特征集。 论文采用带有候选特征集的朴素贝叶斯分类器与十折交叉验证法对博文作者性别进行分类并验证分类结果,最终得到的实验结果如下:采用加入词性序列特征的特征集,相比采用没有加入词性序列特征的特征集,分类准确度较高,为62.99%60.59%,分类准确度提高了2.4%;采用集成特征选择方法提取的候选特征集,相比采用单个特征选择标准提取的候选特征集,分类准确度较高,分别为72.89%67.57%,72.89%68.19%,72.89%70.49%,72.89%67.26%与72.89%66.97%,另外,采用集成特征选择方法,相比不采用任何特征选择方法直接进行性别分类,分类准确度较高,为72.89%60.59%,分类准确度提高了12.3%;采用改进的归并高分类能力特征的候选特征集,相比采用没有改进的候选特征集,分类准确度较高,为74.49%72.89%,分类准确度提高了1.6%。所以采用归并高分类能力特征的候选特征集,得到的分类准确度最高,为74.49%。
[Abstract]:A blog is a website that is usually managed by individuals and posts new articles on a regular basis. With the rapid development of blog, the value of blog as an important information source is also increasing. There is a lot of research on blog in natural language processing and other aspects. Many businesses use information from blogs to provide value-added services, such as blog search, blog theme tracking, and emotional analysis of people's opinions on products and services. The gender classification of bloggers is a research area that has many commercial applications. For example, it can help users find out which themes and products are talked about most by men and women, and what products and services are liked or disliked by men and women. The use of this information can be used to produce targeted advertising and development of targeted products. Therefore, it is of great significance to study the gender classification of bloggers. This paper mainly realizes the gender classification of bloggers, and focuses on how to improve the accuracy of the gender classification of bloggers. For a given blog post, the feature classes used for the gender classification of bloggers are extracted. By using the naive Bayes classifier with candidate feature sets with the feature of merging high classification ability, we can classify the authors of blog posts. And the accuracy of classification can reach 74.49 in the experiment, the specific implementation mainly includes four parts: the first step is to extract the feature classes used for the gender classification of bloggers, the feature classes used in the subject are the basic feature class and the feature class of part of speech sequence; The second step is to implement the feature selection method for the gender classification of bloggers, and use the feature selection method to select candidate feature sets. The feature selection method is based on a single feature selection criterion and the ensemble feature selection method. The third step is to combine naive Bayes classifier with candidate feature set and ten fold cross validation method. The best feature set is selected from multiple candidate feature sets. The fourth step is to improve the gender classification readiness of bloggers and to design and implement candidate feature sets with the ability of merging high classification. This paper uses naive Bayesian classifier with candidate feature set and ten fold cross validation method to classify the gender of the blogger and verify the classification results. The experimental results are as follows: the feature set with part of speech sequence feature is used. Compared with the feature set without the feature of part of speech sequence, the classification accuracy is higher (62.99`. 59), and the classification accuracy is improved by 2.4.The candidate feature set extracted by the integrated feature selection method, Compared with candidate feature sets extracted by single feature selection criteria, the classification accuracy is 72.89 g. 57, 72.89 p. 49, 72.89 g. 26% and 72.89 f. 97%, respectively. In addition, the integrated feature selection method is used to classify sex directly, compared with no feature selection method. The classification accuracy is high, 72.89'. 59, the classification accuracy is improved by 12.30.The candidate feature set with improved merging ability is higher than the candidate feature set, which is 74.49r.89g, and the classification accuracy is improved 1.6%. Therefore, the candidate feature set with merging high classification ability features has the highest classification accuracy (74.49).
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 潘飞;;应对博客危机:以彼之道,还施彼身[J];国际公关;2006年04期

2 项立刚;;收费会不会成为博客网站的生存模式?[J];通信世界;2006年29期

3 ;菲尔·温德利的Blog[J];中国计算机用户;2006年27期

4 石菲;;博客撬动了什么?[J];中国计算机用户;2006年Z2期

5 王志军;;体验迅雷资源博客[J];电脑迷;2006年18期

6 方兴东;;方兴东 说博客[J];大视野;2006年09期

7 白云;;中国博客:专业化研究进程的展开——2006年博客研究综述[J];新闻知识;2007年02期

8 肖昌斌;曾宪波;;教师博客能否从“幕后”走向“前台”[J];湖北教育(时政新闻);2007年04期

9 米晓彬;;不可忽视的博客公关[J];传媒;2007年08期

10 周婷;;博客实名要动谁的“心头肉”[J];计算机与网络;2007年17期

相关会议论文 前10条

1 黄春燕;;博客写作让网络作文如虎添翼[A];国家教师科研基金十一五阶段性成果集(广西卷)[C];2010年

2 姜洪伟;;博客写作的类型与文体特征探析[A];生命、知识与文明:上海市社会科学界第七届学术年会文集(2009年度)哲学·历史·文学学科卷[C];2009年

3 彭兰;;微博客对网络新闻传播格局与模式的冲击[A];新闻学论集(第24辑)[C];2010年

4 王斌;严敏婵;陈晖;朱忠;;医学临床教育中的博客化教学与管理[A];2007年浙江省医学教育学术年会论文汇编[C];2007年

5 程莉;;博客MSN Spaces使用动机初探[A];北京市社会心理学会2006年学术年会论文摘要集[C];2006年

6 陈丹娥;;《博客人生》选题策划[A];图书选题策划报告——第五届“未来编辑杯”获奖文集[C];2006年

7 李珍;胡晓檬;;大学生个人博客使用情况及其人格特征分析[A];北京市社会心理学会2007年学术年会论文摘要集[C];2007年

8 潘少聪;;校园博客,师生共同发展的有效平台[A];国家教师科研基金十一五阶段性成果集(广东卷)[C];2010年

9 王丽娟;;理性匮乏与博客文化建设——论公共领域视野下博客社区的现实建构[A];中国与世界影视文化多样性的现实与前景——中国高等院校影视学会第十一届年会暨第4届中国影视高层论坛论文集[C];2006年

10 陈红梅;;博客使用动机和使用状态研究[A];中国的前沿 文化复兴与秩序重构——上海市社会科学界第四届学术年会青年文集(2006年度)[C];2006年

相关重要报纸文章 前10条

1 郭桂英;该给博客立“规矩”吗[N];中国改革报;2007年

2 本报记者  李国训;博客盈利:与死亡赛跑[N];财经时报;2006年

3 本报记者 朱侠;“博客”与谁共舞[N];中国新闻出版报;2006年

4 本报记者 黄启艳;“古董街”商家欲集体自救[N];中山日报;2008年

5 郑博超;博客里的检察风景[N];检察日报;2008年

6 记者 丁雷;大连软交会 进入“微博”时代[N];大连日报;2010年

7 阮帆;前卫博客 倡导放弃自恋[N];北京科技报;2005年

8 贾鹏雷;谁毁了博客?[N];计算机世界;2005年

9 本报记者 杨凯;博客 中国人网络生活的“新宠”[N];人民日报海外版;2005年

10 张宏平;2005:“大众写作”的博客元年?[N];四川日报;2005年

相关博士学位论文 前10条

1 陈卓群;基于学术博客的个体之间知识转移研究[D];华中师范大学;2012年

2 邬心云;日志式个人博客的自我呈现心理研究[D];华中科技大学;2012年

3 邓建国;Web2.0时代的互联网使用行为与网民社会资本之关系考察[D];复旦大学;2007年

4 叶敏;中国特色网络民主形态研究[D];华东理工大学;2011年

5 茹少峰;破碎物体复原技术与计算机辅助文物复原研究[D];西北大学;2004年

6 余秀才;网络舆论传播的行为与动因[D];华中科技大学;2010年

7 王澎;人类在线行为的实证和建模[D];中国科学技术大学;2011年

8 王慧军;网络舆论传播规律及其导向研究[D];南昌大学;2012年

9 谢福鼎;Wu-Ritt消元法在偏微分代数方程中的应用[D];大连理工大学;2002年

10 汤莉萍;视听媒体新变革[D];四川大学;2007年

相关硕士学位论文 前10条

1 谢英香;博客网络位置影响力测评研究[D];扬州大学;2010年

2 刘珍;论政治博客对协商民主的建构[D];华中科技大学;2009年

3 于燕云;网络媒体微博客与公民社会互动关系研究[D];西北大学;2011年

4 朱丹辉;大学生博客现象及其导引研究[D];河南科技大学;2011年

5 宋敏霞;基于学术博客的图书馆学术信息服务研究[D];华中师范大学;2011年

6 傅翘楚;科学传播理论视野下的科学博客研究[D];中原工学院;2011年

7 邓冰娜;面向博客的垃圾评论识别方法研究[D];河北大学;2011年

8 苏利超;我国博客广告研究[D];河南大学;2010年

9 池锐宏;中国体育博文的基本倾向、成因分析及对策建议[D];浙江师范大学;2010年

10 刘丽芳;微博客的传播特征与传播效果研究[D];浙江大学;2010年



本文编号:2141779

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2141779.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8f71d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com