当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向财经新闻的智能搜索平台的研究与应用

发布时间:2017-05-10 05:00

  本文关键词:面向财经新闻的智能搜索平台的研究与应用,由笔耕文化传播整理发布。


【摘要】:随着互联网技术的高速发展,互联网上的信息包括各种各样的财经新闻正以爆炸式的速度迅猛增长。毫无疑问,财经新闻中蕴含着大量的财富,它对用户做重要的经济决策、对企业把握市场的发展规律、对国家促进金融市场发展和经济结构转型,都具有十分重要的作用和战略意义。但是,深陷在信息的海洋漩涡之中,人们不得不面临着严峻的信息过载问题。因此,如何快速有效地帮助用户获取有价值的财经新闻成为了一个至关重要的问题。 为了缓解信息过载的压力,搜索引擎和门户网站得到了快速的发展和应用。传统的基于关键词的搜索引擎如百度谷歌等,简单易用,用户只需要输入目标关键词,搜索引擎就会自动返回相关的结果。但是搜索引擎往往动辄返回数以万计的结果,因此准确率通常比较低。另外,有些用户只关心某些特定领域的新闻如房地产相关的新闻,虽然门户网站的出现弥补了这一问题,但是门户网站往往冗余庞大、而且只是简单的罗列新闻,无法发现隐藏在新闻内部的关系。例如,房价的新闻往往和房价调控政策以及建筑建材业的新闻有深入的关系。 为此,针对财经新闻领域,本文展开了对面向财经新闻的智能搜索平台的研究与应用。本文的主要研究内容和贡献如下: 1.本文结合传统搜索引擎和门户网站的优点,利用数据挖掘和自然语言处理领域的相关知识,提出了一种新的智能搜索平台框架。平台一共包含了六大模块,它不仅可以提供基于关键词的便捷搜索服务,而且还可以给用户提供分门别类的财经资讯。同时,为了给用户提供第一手的实时热点,平台集成了基于TDT的热点新闻发现算法。此外,为了发现隐藏在新闻内部的关系,本文基于新闻的主题设计并构建了动态知识网络,用于快速引导用户找到更加多样和有用的信息。 2.在智能搜平台的基础上,本文重点针对基于SVM的自动分类算法和基于TDT技术的热点新闻发现算法做了改进。在文本表示阶段,本文重点考虑标题在财经新闻中的重要性,改进了特征词的权重公式。更进一步,考虑到时间对于热点事件至关重要。因此,本文通过融入时间因素改进了文档与主题的相似度公式。 3.在真实的新闻数据集上的实验结果表明,通过引入标题因素,在合适的权重系数情况下,可以提高分类算法的正确率。同时,通过融入时间因素,热点新闻自动发现算法相比于传统的方法,可以更好的区分内容相似但是却不属于同一个主题的事件。
【关键词】:智能搜索 搜索引擎 自动分类 热点新闻检测
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 绪论10-16
  • 1.1 引言10-11
  • 1.2 研究背景11-14
  • 1.2.1 信息爆炸的时代11-12
  • 1.2.2 搜索引擎和门户网站的产生与发展12-13
  • 1.2.3 现有搜索引擎和门户网站的问题13-14
  • 1.3 研究动机14
  • 1.4 研究内容14-15
  • 1.5 本文组织结构15-16
  • 第2章 相关工作概述16-30
  • 2.1 引言16
  • 2.2 传统搜索引擎16-21
  • 2.2.1 搜索引擎的定义与工作原理16-18
  • 2.2.2 搜索引擎的分类和常用开源框架18-20
  • 2.2.3 搜索引擎的研究现状和发展趋势20-21
  • 2.3 文本自动分类技术21-25
  • 2.3.1 文本的特征表示和相似度计算公式21-22
  • 2.3.2 常用的文本分类算法22-25
  • 2.3.3 常用的文本分类评价指标25
  • 2.4 话题检测和跟踪技术25-28
  • 2.4.1 TDT的任务定义和划分体系25-26
  • 2.4.2 TDT的相关技术和研究现状26-28
  • 2.4.3 TDT的评测标准28
  • 2.5 本章小结28-30
  • 第3章 面向财经新闻的智能搜索平台30-44
  • 3.1 引言30
  • 3.2 面向财经新闻的智能搜索平台框架30-32
  • 3.3 智能搜索平台的各个子系统32-43
  • 3.3.1 基于Nutch和Solr的垂直搜索引擎系统33-36
  • 3.3.2 基于SVM的新闻自动分类系统36-38
  • 3.3.3 基于TDT的热点新闻自动发现系统38-40
  • 3.3.4 基于HMM模型的命名实体识别系统40-41
  • 3.3.5 基于LDA和聚类算法的知识网络构建系统41-43
  • 3.3.6 基于内容的个性化推荐系统43
  • 3.4 本章小结43-44
  • 第4章 改进的新闻自动分类和热点自动发现算法44-64
  • 4.1 引言44
  • 4.2 基于相似度公式改进的新闻自动分类和热点自动发现算法44-49
  • 4.2.1 基于相似度公式改进的算法设计思路45-47
  • 4.2.2 改进的新闻自动分类算法和热点自动发现算法框架47-49
  • 4.3 新闻自动分类实验49-58
  • 4.3.1 实验数据集49-50
  • 4.3.2 评价标准50-51
  • 4.3.3 对比算法和参数设定51
  • 4.3.4 实验结果与分析51-58
  • 4.4 热点新闻自动发现实验58-62
  • 4.4.1 实验数据集59-60
  • 4.4.2 评价指标、对比方法和参数设定60
  • 4.4.3 实验结果与分析60-62
  • 4.5 本章小结62-64
  • 第5章 工作总结与未来展望64-66
  • 5.1 研究内容总结64-65
  • 5.2 未来工作展望65-66
  • 参考文献66-70
  • 致谢70-72
  • 在读期间发表的学术论文与取得的其他研究成果72

【参考文献】

中国期刊全文数据库 前2条

1 陈海龙;;基于多Agent的智能搜索引擎的设计与实现[J];哈尔滨商业大学学报(自然科学版);2009年02期

2 孟薇薇;;信息爆炸时代的新概念——大数据[J];商品与质量;2012年09期


  本文关键词:面向财经新闻的智能搜索平台的研究与应用,,由笔耕文化传播整理发布。



本文编号:354011

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/354011.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b503d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com