基于时序关系的金融领域热点话题检测
发布时间:2020-02-21 20:22
【摘要】:近年来,互联网在人们的日常生活中扮演着越来越重要的角色,每天都会有纷繁复杂的新闻事件以各种各样的形式发布到互联网上。相对于以前传统的报刊杂志,在信息爆炸的当今时代,快节奏的生活中大多数人已经习惯了选择互联网作为信息获取的主要来源。 各种各样的网络信息往往让我们应接不暇。然而大多数人更多的是关注自己感兴趣的某一领域内的新闻事件,比如体育、科技、财经等领域的热点话题。如今网络上的信息大多是采用传统的新闻网页形式发布,当用户对某一事件没有进行持续关注时,他们往往只能借助搜索引擎等工具去搜索前段时间发布的相关历史事件。因此,对同一话题相关事件进行整理,并以时序顺序呈现给用户的方式往往更有实际意义。 为此,本文针对金融领域各上市公司的新闻事件的时序关系进行研究,旨在建立一个新闻事件时序关系自动分析系统,能准确对历史事件进行分类,并对新事件进行追踪报道。 本文的主要研究内容包括有股票新闻的获取和分类、个股新闻话题的提取、话题关键词的提取以及新话题的发现和追踪。首先针对本课题的需要对沪深两市的各上市公司的新闻进行定时爬取,并进行预处理及个股分类,然后利用文本挖掘的相关方法从金融新闻文本集中提取相关热点话题,并通过分析新闻话题中每个具体事件,给出一个对该话题的关键词描述,,最终在现有事件分类的基础上,每天对当天发生的新闻进行准确的话题分类。 本文以从各大金融网站采集到的实时股票新闻文本为基础,建立了一个对金融领域上市公司热点新闻进行话题检测与追踪的在线系统,并利用和讯、金融界和新浪财经网站的从2012年1月1日至2012年8月的上市公司热点新闻作为本系统的测试语料来进行实验。最终实验结果表明,本文提出的算法模型基本满足在线应用系统的要求。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
本文编号:2581712
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 邓琦;苏一丹;曹波;闭剑婷;;中文文本体裁分类中特征选择的研究[J];计算机工程;2008年23期
5 罗军;高琦;王翊;;基于Bootstrapping的本体标注方法[J];计算机工程;2010年23期
6 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
7 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
8 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[J];中文信息学报;2006年01期
9 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
10 李星毅;曾路平;施化吉;;基于单词相似度的文本聚类[J];计算机工程与设计;2009年08期
本文编号:2581712
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2581712.html