博客作者性别分类的研究
[Abstract]:A blog is a website that is usually managed by individuals and posts new articles on a regular basis. With the rapid development of blog, the value of blog as an important information source is also increasing. There is a lot of research on blog in natural language processing and other aspects. Many businesses use information from blogs to provide value-added services, such as blog search, blog theme tracking, and emotional analysis of people's opinions on products and services. The gender classification of bloggers is a research area that has many commercial applications. For example, it can help users find out which themes and products are talked about most by men and women, and what products and services are liked or disliked by men and women. The use of this information can be used to produce targeted advertising and development of targeted products. Therefore, it is of great significance to study the gender classification of bloggers. This paper mainly realizes the gender classification of bloggers, and focuses on how to improve the accuracy of the gender classification of bloggers. For a given blog post, the feature classes used for the gender classification of bloggers are extracted. By using the naive Bayes classifier with candidate feature sets with the feature of merging high classification ability, we can classify the authors of blog posts. And the accuracy of classification can reach 74.49 in the experiment, the specific implementation mainly includes four parts: the first step is to extract the feature classes used for the gender classification of bloggers, the feature classes used in the subject are the basic feature class and the feature class of part of speech sequence; The second step is to implement the feature selection method for the gender classification of bloggers, and use the feature selection method to select candidate feature sets. The feature selection method is based on a single feature selection criterion and the ensemble feature selection method. The third step is to combine naive Bayes classifier with candidate feature set and ten fold cross validation method. The best feature set is selected from multiple candidate feature sets. The fourth step is to improve the gender classification readiness of bloggers and to design and implement candidate feature sets with the ability of merging high classification. This paper uses naive Bayesian classifier with candidate feature set and ten fold cross validation method to classify the gender of the blogger and verify the classification results. The experimental results are as follows: the feature set with part of speech sequence feature is used. Compared with the feature set without the feature of part of speech sequence, the classification accuracy is higher (62.99`. 59), and the classification accuracy is improved by 2.4.The candidate feature set extracted by the integrated feature selection method, Compared with candidate feature sets extracted by single feature selection criteria, the classification accuracy is 72.89 g. 57, 72.89 p. 49, 72.89 g. 26% and 72.89 f. 97%, respectively. In addition, the integrated feature selection method is used to classify sex directly, compared with no feature selection method. The classification accuracy is high, 72.89'. 59, the classification accuracy is improved by 12.30.The candidate feature set with improved merging ability is higher than the candidate feature set, which is 74.49r.89g, and the classification accuracy is improved 1.6%. Therefore, the candidate feature set with merging high classification ability features has the highest classification accuracy (74.49).
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 潘飞;;应对博客危机:以彼之道,还施彼身[J];国际公关;2006年04期
2 项立刚;;收费会不会成为博客网站的生存模式?[J];通信世界;2006年29期
3 ;菲尔·温德利的Blog[J];中国计算机用户;2006年27期
4 石菲;;博客撬动了什么?[J];中国计算机用户;2006年Z2期
5 王志军;;体验迅雷资源博客[J];电脑迷;2006年18期
6 方兴东;;方兴东 说博客[J];大视野;2006年09期
7 白云;;中国博客:专业化研究进程的展开——2006年博客研究综述[J];新闻知识;2007年02期
8 肖昌斌;曾宪波;;教师博客能否从“幕后”走向“前台”[J];湖北教育(时政新闻);2007年04期
9 米晓彬;;不可忽视的博客公关[J];传媒;2007年08期
10 周婷;;博客实名要动谁的“心头肉”[J];计算机与网络;2007年17期
相关会议论文 前10条
1 黄春燕;;博客写作让网络作文如虎添翼[A];国家教师科研基金十一五阶段性成果集(广西卷)[C];2010年
2 姜洪伟;;博客写作的类型与文体特征探析[A];生命、知识与文明:上海市社会科学界第七届学术年会文集(2009年度)哲学·历史·文学学科卷[C];2009年
3 彭兰;;微博客对网络新闻传播格局与模式的冲击[A];新闻学论集(第24辑)[C];2010年
4 王斌;严敏婵;陈晖;朱忠;;医学临床教育中的博客化教学与管理[A];2007年浙江省医学教育学术年会论文汇编[C];2007年
5 程莉;;博客MSN Spaces使用动机初探[A];北京市社会心理学会2006年学术年会论文摘要集[C];2006年
6 陈丹娥;;《博客人生》选题策划[A];图书选题策划报告——第五届“未来编辑杯”获奖文集[C];2006年
7 李珍;胡晓檬;;大学生个人博客使用情况及其人格特征分析[A];北京市社会心理学会2007年学术年会论文摘要集[C];2007年
8 潘少聪;;校园博客,师生共同发展的有效平台[A];国家教师科研基金十一五阶段性成果集(广东卷)[C];2010年
9 王丽娟;;理性匮乏与博客文化建设——论公共领域视野下博客社区的现实建构[A];中国与世界影视文化多样性的现实与前景——中国高等院校影视学会第十一届年会暨第4届中国影视高层论坛论文集[C];2006年
10 陈红梅;;博客使用动机和使用状态研究[A];中国的前沿 文化复兴与秩序重构——上海市社会科学界第四届学术年会青年文集(2006年度)[C];2006年
相关重要报纸文章 前10条
1 郭桂英;该给博客立“规矩”吗[N];中国改革报;2007年
2 本报记者 李国训;博客盈利:与死亡赛跑[N];财经时报;2006年
3 本报记者 朱侠;“博客”与谁共舞[N];中国新闻出版报;2006年
4 本报记者 黄启艳;“古董街”商家欲集体自救[N];中山日报;2008年
5 郑博超;博客里的检察风景[N];检察日报;2008年
6 记者 丁雷;大连软交会 进入“微博”时代[N];大连日报;2010年
7 阮帆;前卫博客 倡导放弃自恋[N];北京科技报;2005年
8 贾鹏雷;谁毁了博客?[N];计算机世界;2005年
9 本报记者 杨凯;博客 中国人网络生活的“新宠”[N];人民日报海外版;2005年
10 张宏平;2005:“大众写作”的博客元年?[N];四川日报;2005年
相关博士学位论文 前10条
1 陈卓群;基于学术博客的个体之间知识转移研究[D];华中师范大学;2012年
2 邬心云;日志式个人博客的自我呈现心理研究[D];华中科技大学;2012年
3 邓建国;Web2.0时代的互联网使用行为与网民社会资本之关系考察[D];复旦大学;2007年
4 叶敏;中国特色网络民主形态研究[D];华东理工大学;2011年
5 茹少峰;破碎物体复原技术与计算机辅助文物复原研究[D];西北大学;2004年
6 余秀才;网络舆论传播的行为与动因[D];华中科技大学;2010年
7 王澎;人类在线行为的实证和建模[D];中国科学技术大学;2011年
8 王慧军;网络舆论传播规律及其导向研究[D];南昌大学;2012年
9 谢福鼎;Wu-Ritt消元法在偏微分代数方程中的应用[D];大连理工大学;2002年
10 汤莉萍;视听媒体新变革[D];四川大学;2007年
相关硕士学位论文 前10条
1 谢英香;博客网络位置影响力测评研究[D];扬州大学;2010年
2 刘珍;论政治博客对协商民主的建构[D];华中科技大学;2009年
3 于燕云;网络媒体微博客与公民社会互动关系研究[D];西北大学;2011年
4 朱丹辉;大学生博客现象及其导引研究[D];河南科技大学;2011年
5 宋敏霞;基于学术博客的图书馆学术信息服务研究[D];华中师范大学;2011年
6 傅翘楚;科学传播理论视野下的科学博客研究[D];中原工学院;2011年
7 邓冰娜;面向博客的垃圾评论识别方法研究[D];河北大学;2011年
8 苏利超;我国博客广告研究[D];河南大学;2010年
9 池锐宏;中国体育博文的基本倾向、成因分析及对策建议[D];浙江师范大学;2010年
10 刘丽芳;微博客的传播特征与传播效果研究[D];浙江大学;2010年
,本文编号:2141779
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2141779.html