当前位置:主页 > 经济论文 > 国际贸易论文 >

基于淘宝二手电子设备消费需求的文本挖掘

发布时间:2018-06-07 10:19

  本文选题:二手市场 + word2vec ; 参考:《贵州财经大学》2017年硕士论文


【摘要】:二手市场前景广阔,但二手市场交易却混乱不堪,信息的不对称性使原本应具有性价比优势的二手商品无人问津。中国消费者协会的一个调查显示,中国超过半数的使用者拥有两部及以上手机,同时拥有这么多部手机也就意味着高更换率以及如何处理二手手机的问题,手机二次销售是大众首选的处理方式。二手交易平台买卖信息中可以了解到消费者对二手手机买卖的顾虑与需求。本文利用自然语言处理技术对淘宝二手交易平台的交易文本数据进行文本挖掘,探究淘宝二手电子设备消费者的需求现状,并对二手市场消费人群进行多维度用户画像。本文主要工作内容如下:第一,先利用局部哈希敏感算法过滤出淘宝二手交易文本相似内容组合,计算相似内容组合中的文本相似性系数,对相似性得分大于0.1的内容组合进行数据清洗,只保留内容组合中的一条信息。同时从搜狗细胞词库中提取一部分电商、电脑、手机的专有名词词典,将其载入分词工具进行高质量分词。第二,抓取消费者较为关注的信息点,同时利用LDA主题模型将二手淘宝交易文本信息中买卖双方较为关注的焦点进行提炼,主要话题聚为三类:手机参数设置、手机状态以及交易状态。手机参数设置的关注点在双卡双待、系统类型、电池容量等,而手机状态的关注点在购买时间、使用时间、保修时间、是否有发票等,交易状态的关注点在当面交易、是否包邮、电话联系。第三,融合知网HowNet中文情感词典以及一部分自定义词条作为情感标注集。从情感标注的结果来看,二手淘宝交易文本中正面的情感得分要多于负面,两者的情感极性比在0.66左右,整体二手市场的情绪偏向正面。本文同时利用深度学习算法将二手交易文本拆分为词向量,通过词向量的相似性衡量不同话题的关注热点。第四,本文创造性地引入了话题密度以及情感强度作为用户评价的核心指标,构造了讨论热度、用户忠诚度、话题密度、使用价值以及情感强度的用户价值评价体系,并利用最大期望算法将人群划分为观望用户、储备用户、价值用户。最后从区位、情感、话题焦点、热度、忠诚度等角度论述三类人群特征。
[Abstract]:The second-hand market has a bright future, but the second-hand market transaction is chaotic, the information asymmetry makes the second-hand goods which should have the advantage of performance and price be ignored. A survey by the China Consumer Association shows that more than half of Chinese users own two or more phones, and that having so many mobile phones means a high turnover rate and how to deal with second-hand phones. The second sale of mobile phone is the first choice for the public. Second-hand trading platform trading information can be seen in the second-hand mobile phone trading concerns and needs. This paper uses natural language processing technology to text mining the transaction text data of Taobao second-hand trading platform, probes into the demand status of Taobao second-hand electronic equipment consumers, and carries on multi-dimensional user portrait to the second-hand market consumers. The main work of this paper is as follows: first, the text similarity coefficient in the similar content combination is calculated by filtering out the text similarity content combination of Taobao second-hand transaction text by using the local hash sensitive algorithm. The content combination whose similarity score is greater than 0.1 is cleaned and only one piece of information in the content combination is retained. At the same time, a dictionary of proper nouns of electronic quotient, computer and mobile phone is extracted from the Sogou cell lexicon and loaded into word segmentation tools for high quality word segmentation. Second, grab the information points that consumers pay more attention to, at the same time, use the LDA theme model to refine the focus that buyers and sellers pay more attention to in the text information of second-hand Taobao transaction. The main topic is divided into three categories: mobile phone parameter setting, Mobile phone status and transaction status. The focus of mobile phone parameter setting is double card and double waiting, system type, battery capacity, etc. While mobile phone status focuses on purchase time, usage time, warranty time, whether there are invoices, etc. Please contact me by phone if you want to send a mail package. Thirdly, the HowNet Chinese emotion Dictionary and some custom entries are used as the affective tagging set. From the result of affective tagging, the positive emotion score of the second-hand Taobao trading text is more than the negative, the emotional polarity ratio of the two is about 0.66, and the emotion of the whole second-hand market tends to be positive. At the same time, this paper uses the depth learning algorithm to divide the second-hand transaction text into word vectors, and measures the focus of attention on different topics through the similarity of word vectors. Fourth, this paper creatively introduces topic density and emotional intensity as the core index of user evaluation, and constructs a user value evaluation system of discussion heat, user loyalty, topic density, use value and emotional intensity. And the maximum expectation algorithm is used to divide the crowd into wait-and-see users, reserve users and value users. Finally, from the location, emotion, topic focus, heat, loyalty and other angles to discuss the three types of crowd characteristics.
【学位授予单位】:贵州财经大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:F426.6;F724.6

【参考文献】

相关期刊论文 前10条

1 李丹蕾;张曦;于弋栋;柯辉煌;马腾;;从旧货价值挖掘二手市场发展潜力的探究[J];价值工程;2014年25期

2 杨彦波;刘滨;祁明月;;信息可视化研究综述[J];河北科技大学学报;2014年01期

3 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期

4 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

5 王晓东;刘倩;陶县俊;;情感Ontology构建与文本倾向性分析[J];计算机工程与应用;2010年30期

6 孙浩;达庆利;;电子类产品回收再制造能力与二手市场需求相协调的研究——以电视机为例[J];管理工程学报;2010年03期

7 党蕾;张蕾;;一种基于知网的中文句子情感倾向判别方法[J];计算机应用研究;2010年04期

8 王洪彬;刘晓洁;;基于KNN的不良文本过滤方法[J];计算机工程;2009年24期

9 王素格;李德玉;魏英杰;宋晓雷;;基于同义词的词汇情感倾向判别方法[J];中文信息学报;2009年05期

10 谢盼盼;;校园二手交易市场分析[J];现代商业;2009年09期

相关硕士学位论文 前4条

1 朱少杰;基于深度学习的文本情感分类研究[D];哈尔滨工业大学;2014年

2 施乾坤;基于LDA模型的文本主题挖掘和文本静态可视化的研究[D];广西大学;2013年

3 孙露乔;文本挖掘的研究及其在主题搜索引擎中的应用[D];北京邮电大学;2012年

4 苏再强;基于ATN算法和潜在语义索引的不良信息过滤系统研究[D];西南交通大学;2011年



本文编号:1990829

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/1990829.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7cd6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com