面向证券评论的情感分析研究与应用
发布时间:2021-08-05 23:31
我国资本市场不断壮大和成熟,但还存在个人投资者资金量小、专业能力不强和个人情绪影响投资决策等情况。一些学者运用机器学习和深度学习等文本情感分析技术研究互联网上用户的证券评论情感倾向来了解投资者情绪,取得了不少成果,但是存在研究分析的样本量偏少、未将最新的文本情感分析方法运用于证券评论情感分析领域等情况。本文收集整理了一些东方财富股吧的上证指数评论,扩大研究样本量,同时结合近期文本情感分析研究成果,构建了三级证券评论情感词典,提取评论情感特征融入证券评论情感分析研究,结合词向量和词性向量构建了多特征融合证券评论情感分析模型MF2SCSAM,并应用于构建投资者情绪指数,进一步丰富了证券评论情感分析研究。开展的具体工作有如下四点。(1)构建证券评论语料库。本文爬取了东方财富股吧中上证指数2018年8月1日—2019年7月31日的评论,合计96.83万条,作为原始语料数据;之后进行了清洗整理;然后运用jieba分词工具对整理后的评论数据进行分词和去停用词;选取词汇数≤32个词汇的评论,合计86.06万条,构建证券评论语料库。在证券评论语料库中选取3.01万条评论手工进行三...
【文章来源】:江西财经大学江西省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
东方财富股吧上证指数吧评论列表页面
第3章证券评论语料库与情感词典构建15图3.1东方财富股吧上证指数吧评论列表页面图3.2东方财富股吧评论内容页面本文采用Python语言的BeautifulSoup库抓取东方财富股吧里的上证综指吧的评论。首先,读取上证综指吧各评论列表网页,解析出列表网页中每条评论的阅读数、跟评数、标题、评论页面链接、用户名和最后更新时间,插入PostgreSQL数据库,抓取流程见图3.3。待抓取完需要的上证综指吧各评论列表网页后,查询PostgreSQL数据库,得到每条评论的评论页面链接,读取评论页面,解析出评论页面内容中的标题、正文、发表时间、用户吧龄和用户影响力等信息,更新至PostgreSQL数据库中,得到证券评论数据集库(SecuritiesCommentDB),抓取流程见图3.4。整个抓取过程见算法3.1。
第3章证券评论语料库与情感词典构建21图3.5证券评论标注程序界面3.2证券评论情感词典的构建3.2.1情感词典介绍在语句中常常存在可以直接反映作者情感的词汇,例如:“开心”、“失望”、“心旷神怡”、“大失所望”等。不少学者已经在情感词典构建方面做了诸多工作,已经构建了一些中文情感词典。目前常用的中文情感词典有:李军中文褒贬义词典、台湾大学NTUSD情感词典和知网Hownet情感词典等,见表3.6。表3.6常用的中文情感词典与举例字典名称情感属性词数举例李军中文褒贬义词典正面情感5,567聪明、浓丽、慈善、得劲、晋升、卓绝、怡然、爽直、……负面情感4,469丧心病狂、破坏、僻陋、落井下石、叛徒、仇敌、荒诞、沮丧、……台湾大学NTUSD正面情感2,810一帆风顺、引人赞美、心满意足、令人高兴、可称赞的、多才多艺、壮丽雄伟、卓越、……负面情感8,274一下子爆发、刁难、小气、任性、危险之源、奸诈、有矛盾情绪、低级庸俗、……知网Hownet正面情感836称心如意、崇拜、顶礼膜拜、感激不劲关怀备至、爱不释手、爱宠、……负面情感1,254哀切、悲、鄙夷、搥胸顿足、愁、仓皇失措、沉痛、……正面评价3,730安分、奔放、灿烂、诚恳、醇美、淡雅、动人、……负面评价3,116碍眼、百孔千疮、不负责任、惨绝人寰、沉痛、胆怯、低俗、恶心、……
本文编号:3324641
【文章来源】:江西财经大学江西省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
东方财富股吧上证指数吧评论列表页面
第3章证券评论语料库与情感词典构建15图3.1东方财富股吧上证指数吧评论列表页面图3.2东方财富股吧评论内容页面本文采用Python语言的BeautifulSoup库抓取东方财富股吧里的上证综指吧的评论。首先,读取上证综指吧各评论列表网页,解析出列表网页中每条评论的阅读数、跟评数、标题、评论页面链接、用户名和最后更新时间,插入PostgreSQL数据库,抓取流程见图3.3。待抓取完需要的上证综指吧各评论列表网页后,查询PostgreSQL数据库,得到每条评论的评论页面链接,读取评论页面,解析出评论页面内容中的标题、正文、发表时间、用户吧龄和用户影响力等信息,更新至PostgreSQL数据库中,得到证券评论数据集库(SecuritiesCommentDB),抓取流程见图3.4。整个抓取过程见算法3.1。
第3章证券评论语料库与情感词典构建21图3.5证券评论标注程序界面3.2证券评论情感词典的构建3.2.1情感词典介绍在语句中常常存在可以直接反映作者情感的词汇,例如:“开心”、“失望”、“心旷神怡”、“大失所望”等。不少学者已经在情感词典构建方面做了诸多工作,已经构建了一些中文情感词典。目前常用的中文情感词典有:李军中文褒贬义词典、台湾大学NTUSD情感词典和知网Hownet情感词典等,见表3.6。表3.6常用的中文情感词典与举例字典名称情感属性词数举例李军中文褒贬义词典正面情感5,567聪明、浓丽、慈善、得劲、晋升、卓绝、怡然、爽直、……负面情感4,469丧心病狂、破坏、僻陋、落井下石、叛徒、仇敌、荒诞、沮丧、……台湾大学NTUSD正面情感2,810一帆风顺、引人赞美、心满意足、令人高兴、可称赞的、多才多艺、壮丽雄伟、卓越、……负面情感8,274一下子爆发、刁难、小气、任性、危险之源、奸诈、有矛盾情绪、低级庸俗、……知网Hownet正面情感836称心如意、崇拜、顶礼膜拜、感激不劲关怀备至、爱不释手、爱宠、……负面情感1,254哀切、悲、鄙夷、搥胸顿足、愁、仓皇失措、沉痛、……正面评价3,730安分、奔放、灿烂、诚恳、醇美、淡雅、动人、……负面评价3,116碍眼、百孔千疮、不负责任、惨绝人寰、沉痛、胆怯、低俗、恶心、……
本文编号:3324641
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3324641.html