当前位置:主页 > 经济论文 > 银行论文 >

金融学文本大数据挖掘方法与研究进展

发布时间:2021-04-01 11:45
  在金融学领域的传统实证研究中,所用数据多局限于财务报表和股票市场数据等结构化数据。而在大数据时代,计算机技术的进步使得数据类型不断丰富,研究者开始将非结构化的文本大数据引入到金融学领域的研究中,其主要包括上市公司披露文本、财经媒体报道、社交网络文本、网络搜索指数以及P2P网络借贷文本等,并对文本的可读性、语气语调、相似性以及语义特征展开研究。本文首先介绍了金融学领域文本大数据挖掘步骤和方法,描述了语料获取、预处理过程、文档表示以及文档的特征抽取;然后根据不同的文本信息来源,梳理了金融学文本大数据的研究进展;最后对未来金融学文本大数据的研究方法和研究内容进行了展望。 

【文章来源】:经济学动态. 2020,(04)北大核心CSSCI

【文章页数】:16 页

【部分图文】:

金融学文本大数据挖掘方法与研究进展


文本大数据分析流程图

实例图,模型,向量,词语


词嵌入是将维数为所有词的数量的高维空间嵌入到低维连续向量空间中的技术。通过词嵌入技术,可以将词语映射成低维连续向量空间中的向量,通过向量之间的距离和位置来表示文档中词语的上下文、语法和语义的相似性以及与其他词语的关系。在金融学文本分析中,Word2Vec技术是常用的词嵌入技术,包括CBOW(continuous bag of words)和Skip-Gram神经网络模型,可以通过训练使神经网络捕捉到更多词语之间的上下文信息,从而将每个词语映射成更低维度、稠密且包含更多语义信息的向量(Mikolov et al,2013)。在Word2Vec技术中,词嵌入向量能得到不同词之间的类比关系,最经典的例子就是“king-queen=man-woman”,如图2所示。4.主题模型。

【参考文献】:
期刊论文
[1]言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J]. 彭红枫,林川.  金融研究. 2018(11)
[2]社会关系与企业信息披露质量——基于中国上市公司年报的文本分析[J]. 任宏达,王琨.  南开管理评论. 2018(05)
[3]年报风险信息披露与审计费用——基于文本余弦相似度视角[J]. 王雄元,高曦,何捷.  审计研究. 2018(05)
[4]年报语调与内部人交易:“表里如一”还是“口是心非”?[J]. 曾庆生,周波,张程,陈信元.  管理世界. 2018(09)
[5]金融科技媒体情绪的刻画与对网贷市场的影响[J]. 王靖一,黄益平.  经济学(季刊). 2018(04)
[6]基于网络大数据挖掘的实证资产定价研究进展[J]. 张学勇,吴雨玲.  经济学动态. 2018(06)
[7]投资者关注和股市表现——基于雪球关注度的研究[J]. 孙书娜,孙谦.  管理科学学报. 2018(06)
[8]借款描述的可读性能够提高网络借款成功率吗[J]. 陈霄,叶德珠,邓洁.  中国工业经济. 2018(03)
[9]金融市场文本情绪研究进展[J]. 唐国豪,姜富伟,张定胜.  经济学动态. 2016(11)
[10]分析师能有效发挥专业解读信息的作用吗?——基于汉字年报复杂性指标的研究[J]. 丘心颖,郑小翠,邓可斌.  经济学(季刊). 2016(04)



本文编号:3113277

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/3113277.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fcdda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com