基于创投媒体的文本挖掘分析创投市场趋势
发布时间:2021-08-28 07:00
创投市场一直以来都是金融市场的重要部分,创业公司的发展离不开创投市场的资金支持,因此创投市场对于推动经济发展发挥着重要的作用。进入18年以来,创投市场的情况一直不容乐观,被称为“史上最严的资管新规”出台,自上而下的进行去杠杆,各路出资方的资金也出现大幅下跌,LP的总量减少,母基金自身募资也比较难,上市公司因为二级市场不景气也开始削弱出资,因此创投市场的情况比较严峻。通过一些直观的数据,比如市场上的投资事件数、投资金额数,在一定程度上可以初步判断目前的一个市场环境情况。因此对于一级市场的投资者而言,投资更需要谨慎。如果能通过一些分析提前布局创投市场未来投资热门赛道,那么投资收益保证就会有很大的成功概率。投资热度趋势固然不是唯一的考虑因素,因为还要考虑项目的总体质量(比如项目的市场空间、商业模式、竞争优势、团队背景等),但是对于投资者的投资判断还是有很大的帮助,方便进行提早布局和研究。目前关于创投市场的数据相对二级市场股票交易的市场数据要少很多,不像二级市场每天有大量的交易数据作为参考。创投市场的融资金额或者融资事件数的直观统计数据相对于创投市场的研究而言较为宏观,很难进一步深入分析研究。...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图3-1?Scrapy整体架构??Scrapy主要是为了爬取网站数据,可以应用在包括数据挖掘等程序中
《?;?ss5!_.ji穿??-■?■?.*?:-^?.‘.入m?..;?.-;:;,^:;:-?-;^-u:??;?〇:?.?ju’.厂-;屮.?w?.!私;;:??-:Sl^if£i^{fcSi^feffiSzz±zz|zziii:^SS^^^k??£-J....識£ii5idSgi¥Siixiiti=i!i??*<*'>*???■?-:??*?^?。?"?,?"?,?r?y.u?u??■:::凝遇B?薇门?1:二1—"?、'??图3-2?python爬虫数据截图??3.2数据预处理??数据预处理对于后续的分析结果至关重要,如果想要取得理想的结果,那就??应该重视数据的预处理部分。本文主要是对36氪的文章进行文本数据清洗,处??理过程如下:??3.2.1文本分词??文本分词对于文本挖掘是至关重要的一步,原始文本数据中常常会包含大量??的噪声信息,一些词语以及标点符号会反复出现,这类词对于文本数据挖掘而言??并不会提供有用信息,而是作为噪声存在干扰其他词,因此分词的处理直接影响??最后的结果。本文采用jieba对文本分词进行处理,包含精确模式、全模式、搜??索引擎模式等三种分词模式,对于本文而言,选取精确模式更为合适。??>精确模式:将文本句子的分词进行较为精准的切分,适合文本分析。??>全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,可以快??速将文本中的词语都区分出来,但是不能有效解决词语的歧义问题。??>搜索引擎模式:该模式是在精确模式的基础之上,对较长的词汇进行再次切??分,相对而言更适用于搜索引擎分词。??现以“定位理论认为营销的终极战场在
图4-2?36氪发文数量(按年统计)??10??
【参考文献】:
期刊论文
[1]文本挖掘领域研究现状与趋势分析[J]. 陶洁. 武汉船舶职业技术学院学报. 2018(02)
[2]我国科技媒体类网站比较研究——以虎嗅网、钛媒体和36氪为例[J]. 程海燕. 新闻传播. 2016(11)
[3]保险资金参与创业投资的路径及风险管理研究[J]. 叶颖刚. 上海保险. 2015(12)
[4]LDA主题模型[J]. 邹晓辉,孙静. 智能计算机与应用. 2014(05)
[5]挖掘中文网络客户评论的产品特征及情感倾向[J]. 李实,叶强,李一军,罗嗣卿. 计算机应用研究. 2010(08)
[6]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江. 计算机应用. 2009(S1)
[7]基于词性选择的文本预处理方法研究[J]. 李英. 情报科学. 2009(05)
[8]基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J]. 钱爱兵,江岚. 情报理论与实践. 2008(06)
[9]文本挖掘理论概述[J]. 巩知乐,张德贤. 福建电脑. 2008(09)
[10]基于语义计算的语句相关度研究[J]. 李素建. 计算机工程与应用. 2002(07)
博士论文
[1]资本市场制度对创投机构投资战略与绩效的影响研究[D]. 吴刚.对外经济贸易大学 2018
[2]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
本文编号:3368043
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
图3-1?Scrapy整体架构??Scrapy主要是为了爬取网站数据,可以应用在包括数据挖掘等程序中
《?;?ss5!_.ji穿??-■?■?.*?:-^?.‘.入m?..;?.-;:;,^:;:-?-;^-u:??;?〇:?.?ju’.厂-;屮.?w?.!私;;:??-:Sl^if£i^{fcSi^feffiSzz±zz|zziii:^SS^^^k??£-J....識£ii5idSgi¥Siixiiti=i!i??*<*'>*???■?-:??*?^?。?"?,?"?,?r?y.u?u??■:::凝遇B?薇门?1:二1—"?、'??图3-2?python爬虫数据截图??3.2数据预处理??数据预处理对于后续的分析结果至关重要,如果想要取得理想的结果,那就??应该重视数据的预处理部分。本文主要是对36氪的文章进行文本数据清洗,处??理过程如下:??3.2.1文本分词??文本分词对于文本挖掘是至关重要的一步,原始文本数据中常常会包含大量??的噪声信息,一些词语以及标点符号会反复出现,这类词对于文本数据挖掘而言??并不会提供有用信息,而是作为噪声存在干扰其他词,因此分词的处理直接影响??最后的结果。本文采用jieba对文本分词进行处理,包含精确模式、全模式、搜??索引擎模式等三种分词模式,对于本文而言,选取精确模式更为合适。??>精确模式:将文本句子的分词进行较为精准的切分,适合文本分析。??>全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,可以快??速将文本中的词语都区分出来,但是不能有效解决词语的歧义问题。??>搜索引擎模式:该模式是在精确模式的基础之上,对较长的词汇进行再次切??分,相对而言更适用于搜索引擎分词。??现以“定位理论认为营销的终极战场在
图4-2?36氪发文数量(按年统计)??10??
【参考文献】:
期刊论文
[1]文本挖掘领域研究现状与趋势分析[J]. 陶洁. 武汉船舶职业技术学院学报. 2018(02)
[2]我国科技媒体类网站比较研究——以虎嗅网、钛媒体和36氪为例[J]. 程海燕. 新闻传播. 2016(11)
[3]保险资金参与创业投资的路径及风险管理研究[J]. 叶颖刚. 上海保险. 2015(12)
[4]LDA主题模型[J]. 邹晓辉,孙静. 智能计算机与应用. 2014(05)
[5]挖掘中文网络客户评论的产品特征及情感倾向[J]. 李实,叶强,李一军,罗嗣卿. 计算机应用研究. 2010(08)
[6]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江. 计算机应用. 2009(S1)
[7]基于词性选择的文本预处理方法研究[J]. 李英. 情报科学. 2009(05)
[8]基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J]. 钱爱兵,江岚. 情报理论与实践. 2008(06)
[9]文本挖掘理论概述[J]. 巩知乐,张德贤. 福建电脑. 2008(09)
[10]基于语义计算的语句相关度研究[J]. 李素建. 计算机工程与应用. 2002(07)
博士论文
[1]资本市场制度对创投机构投资战略与绩效的影响研究[D]. 吴刚.对外经济贸易大学 2018
[2]基于深度学习的文本表示与分类方法研究[D]. 闫琰.北京科技大学 2016
本文编号:3368043
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3368043.html