基于数据挖掘算法的金融数据采集与分析研究
本文选题:网络爬虫 + K-means算法 ; 参考:《天津大学》2016年硕士论文
【摘要】:股票市场作为金融市场中重要的一部分,在我国经济中起着非常重要的作用,成为经济的“晴雨表”,有效的预测股票走势在金融投资领域占有非常重要的地位。然而要分析股票市场,就需要及时的获取到股市的相关数据,但随着经济的不断发展,股票数据的规模越来越大,已经不是人力所能获取的。尽管网上有着很多数据集的提供网站,但是多数都需要付出大量的金钱,同时所得到的数据多为不全数据,无法及时得到最新的数据。近年来兴起的数据挖掘技术很好的提供了获取海量数据并从中分析出有价值、隐藏着的规律的技术。本文主要是运用网络爬虫技术对雅虎金融中的股票数据进行采集,利用贝叶斯推断的基本原理及其推广对数据进行分类和提取,从股票海量的数据中提取出有用的数据进行分析。同时建立一套数据提取系统,基于对网络爬虫的深入理解,对爬虫框架进行二次开发,实现快速抓取数据。随后初步探讨了利用K-means算法和改进的K-medoids对我国A股市场的交易数据进行聚类分析。
[Abstract]:As an important part of the financial market, the stock market plays a very important role in the economy of our country and becomes the "barometer" of the economy. The effective prediction of the stock trend occupies a very important position in the field of financial investment. However, in order to analyze the stock market, we need to get the relevant data of stock market in time, but with the development of economy, the scale of stock data is getting larger and larger, which can not be obtained by manpower. Although there are many web sites providing data sets on the Internet, most of them need to pay a lot of money. At the same time, most of the data they get are incomplete, so they can't get the latest data in time. In recent years, data mining technology has provided a good way to obtain massive data and analyze the valuable and hidden rules. This paper mainly uses the technology of web crawler to collect the stock data in Yahoo Finance, and classifies and extracts the data by using the basic principle of Bayesian inference and its generalization. Extract useful data from massive stock data for analysis. At the same time, a data extraction system is established. Based on the deep understanding of the web crawler, the crawler framework is redeveloped to realize fast data capture. Then it discusses the clustering analysis of the trading data of A-share market using K-means algorithm and improved K-medoids.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP274.2
【相似文献】
相关期刊论文 前10条
1 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期
2 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
3 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
4 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
5 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
6 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
7 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
8 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
9 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
10 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
相关会议论文 前10条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
7 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
8 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
9 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
10 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
相关重要报纸文章 前3条
1 王志强;银行应用系统间的数据交换[N];计算机世界;2005年
2 ;选择合适的数据挖掘算法[N];计算机世界;2007年
3 陈代寿;网管不言愁[N];中国计算机报;2000年
相关博士学位论文 前4条
1 殷君茹;分布式并行环境下林地落界数据快速统计技术研究[D];中国林业科学研究院;2015年
2 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
3 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
4 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
相关硕士学位论文 前10条
1 王悦;基于数据挖掘算法的金融数据采集与分析研究[D];天津大学;2016年
2 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
3 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
4 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
5 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
6 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
7 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
8 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
9 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
10 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
,本文编号:2094633
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2094633.html