基于微博的用户职业抽取研究
本文选题:用户职业 切入点:微博 出处:《中国科学技术大学》2017年硕士论文
【摘要】:随着信息技术的快速发展,互联网已经深深融入了人们的日常生活。微博作为互联网时代主要的应用之一在知识分享、信息传递等应用中扮演着重要的角色。微博作为一种新兴的社交网络工具,其用户数量大、数据资源丰富、传递信息快的优势使我们有可能在微博平台上抽取有商业价值的信息,例如微博用户的职业、年龄等。此类数据对于互联网时代的广告推送以及个性化推荐都具有重要的价值。因此,基于微博的用户信息抽取成为目前互联网信息抽取中的一个热点研究方向。本论文主要研究微博平台上的用户职业信息抽取问题。这一问题的主要挑战在于现有的微博平台没有提供普通用户的职业信息认证,而已有的职业抽取工作采用的是传统的特征提取方法,操作复杂且耗时。这要求我们设计新的面向微博用户职业抽取的高效算法。针对这一研究目标,本文从两个角度研究了微博用户职业抽取问题,即基于词向量和职业词典相结合的微博用户职业抽取方法以及基于多层神经网络模型的抽取方法。总体而言,本论文的主要工作和贡献可归纳为下面几点:(1)提出了一种基于特征工程的微博用户职业抽取方法。目前已有的针对微博用户职业抽取的工作大部分停留在完善提取用户特征来提高准确率的层面,工作量大且不易实现。本文基于词语相似性迭代方法来提取职业相关的词典,并使用词典过滤冗余词汇,再将每个用户样本清洗后的所有词的词向量的列取和来表示用户样本,不仅可以去除冗余特征,还能够增强特征的表达能力,有效减少抽取过程的工作量并且提高抽取性能。我们在实际微博数据集上的实验表明,基于词典过滤的方法可以达到87.12%的准确率,相比于传统的特征提取方法提高了 9%的准确率。(2)将多层神经网络模型应用于微博用户职业抽取中,通过实验对比了MLP、CNN、LSTM以及FastText模型的性能并进行了讨论和分析。随着微博用户的快速增长和职业领域的不断扩张,如果词典提取不够完善便无法准确捕获用户特征信息,且微博数据噪声干扰大,因此,在应用多层神经网络模型的过程中,本文还提出了一种基于领域偏好的微博数据去噪算法,并在此基础上应用多层神经网络模型FastText进行微博用户职业抽取。实验表明,基于领域偏好的去噪算法可以提高近5%的分类准确率。
[Abstract]:With the rapid development of information technology, the Internet has been deeply integrated into people's daily life. Weibo, as one of the main applications in the Internet era, is sharing knowledge. As a new social network tool, Weibo has a large number of users and abundant data resources. The advantage of fast messaging makes it possible for us to extract commercially valuable information on Weibo's platform, such as the occupation of Weibo users. Age and so on. Such data are of great value for advertising push and personalized recommendation in the Internet age. The user information extraction based on Weibo has become a hot research direction in Internet information extraction. This paper mainly studies the problem of user professional information extraction based on Weibo platform. The main challenge of this problem lies in the current situation. Weibo's platform does not provide professional information certification for ordinary users. The traditional feature extraction method is used in the existing job extraction work, which is complex and time-consuming. This requires us to design a new efficient algorithm for Weibo user occupation extraction. In this paper, we study the problem of Weibo user occupation extraction from two angles, that is, Weibo user occupation extraction method based on the combination of word vector and occupational dictionary, and the extraction method based on multi-layer neural network model. The main work and contribution of this paper can be summarized as follows: 1) this paper proposes a method of user occupation extraction for Weibo based on feature engineering. User features are used to improve the level of accuracy, Based on the iterative method of word similarity, this paper extracts occupational related dictionaries, filters redundant words by using dictionaries, and then adds the word vectors of all words cleaned by each user sample to represent the user samples. It can not only remove redundant features, but also enhance the expression of features, reduce the workload of extraction process and improve the performance of extraction. The method based on dictionary filtering can achieve the accuracy of 87.12%. Compared with the traditional feature extraction method, it improves the accuracy rate by 9%.) the multilayer neural network model is applied to Weibo user occupation extraction. In this paper, the performance of FastText model and its LSTM model are compared and analyzed through experiments. With the rapid growth of Weibo users and the continuous expansion of professional field, if the dictionary extraction is not perfect enough, the characteristic information of users can not be captured accurately. Weibo's data noise is very noisy. Therefore, in the process of applying the multilayer neural network model, this paper also proposes a new algorithm based on domain preference to remove the noise from Weibo data. On this basis, the multilayer neural network model FastText is used to extract Weibo user occupation. Experiments show that the denoising algorithm based on domain preference can improve the classification accuracy by nearly 5%.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 华强,郑启伦;二进前向多层神经网络实现的研究[J];微电子学与计算机;2003年04期
2 何旭涛;连志春;;跨越连接多层神经网络的稳定性[J];辽宁科技大学学报;2008年02期
3 连志春;;基于有跨越连接的多层神经网络的优越性[J];辽宁师专学报(自然科学版);2008年02期
4 胡子建;在多层神经网络中用Back-Propagation算法进行方位角估测[J];南昌大学学报(理科版);1990年04期
5 杨晓帆,陈廷槐,汪雪琴;多层神经网络的内在容错性[J];重庆大学学报(自然科学版);1995年03期
6 王国胤,,施鸿宝;基于循环多层神经网络的联想存贮器[J];上海铁道大学学报;1996年02期
7 热合木江,古丽·吐尔逊,艾尼瓦尔·吐尔地,马玉书;多层神经网络的一种有效算法[J];石油大学学报(自然科学版);2003年06期
8 顾明;;多层神经网络在入侵检测中的应用[J];计算机工程与设计;2007年08期
9 刘雨搏;金宁;;基于共轭梯度法的多层神经网络训练方法[J];信息技术;2008年03期
10 罗辽复;李前忠;;一个突触前后不对称的多层神经网络模型[J];内蒙古大学学报(自然科学版);1990年03期
相关会议论文 前4条
1 肖化;胡广莉;何惠玲;保宗悌;;基于两组多层神经网络的电容层析成像研究[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
2 李延龙;马军;李鸿伯;;具有稀疏突触的多层神经网络同步中的耦合参数[A];全国复杂系统研究论坛论文集(二)[C];2005年
3 吕强;郭孔辉;张翠芳;;基于递归多层神经网络的非线性动力学系统辨识[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(上册)[C];1995年
4 绪梅;冯地清;;利用多层神经网络实现核爆/非核爆的模糊综合评判方法[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
相关硕士学位论文 前3条
1 葛柳飞;基于多层神经网络的室内定位算法研究[D];中国矿业大学;2016年
2 毕占甲;基于多GPU的多层神经网络并行加速训练算法的研究[D];哈尔滨工业大学;2015年
3 吕霞;基于微博的用户职业抽取研究[D];中国科学技术大学;2017年
本文编号:1664491
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1664491.html