上市公司负面信息监测系统分析与设计
发布时间:2018-03-13 21:35
本文选题:搜索引擎 切入点:网络爬虫 出处:《复旦大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着网络的发展,人们开始认识到在大量的数据中获取有用的信息相当困难。在此背景下,从上世纪90年代开始,数据挖掘技术开始迅速崛起。该研究领域综合了机器学习和统计分析等多个学科的计算机技术,它能够有效的帮助人们从浩瀚的数据中提取出有用的信息资源并加以研究,从而帮助人们科学客观地做出各种决策。系统采用了数据挖掘技术,可以应用于网络中的各类网站,采集相关的负面信息。本系统是专门针对东方财富股吧论坛而设计,对该论坛中某一上市公司采集负面信息。系统实现了对网页信息的采集、预处理、分词、文本倾向性分析以及索引检索的全过程,主要包括以下几个功能:1.网页采集:下载东方财富股吧论坛中的网页并保存在本地文件夹中。2.网页预处理:去除网页中各类无用的标签,提取正文部分。3.中文分词:作为数据挖掘的前提,在负面信息判定前,将提取到的正文做分词处理。4.负面信息判定:通过文本分类技术判断文本中的负面信息,保存含有负面信息的文本。5.用户检索:用户通过输入上市公司的股票代码,获取该公司在东方财富股吧论坛中的负面消息。在完成了系统设计和系统完整功能的基础上,本文还针对文本分类的多种算法进行了分析和研究,采用精度较高的算法实现本系统的负面信息判定功能。论文最后总结了课题的研究成果,展望了本论文涉及的相关技术及进一步的研究工作。
[Abstract]:With the development of the network, people begin to realize that it is very difficult to obtain useful information from a large amount of data. In this context, since -10s, Data mining technology has begun to rise rapidly. This research field combines computer technology of machine learning and statistical analysis. It can effectively help people extract useful information resources from the vast amount of data and study them. It helps people make scientific and objective decisions. The system adopts data mining technology, which can be applied to all kinds of Web sites and collect related negative information. This system is specially designed for the Oriental Wealth Unit Forum. The system realizes the whole process of collecting, preprocessing, participle, text orientation analysis and index retrieval for a listed company in this forum. The main functions include: 1. Web page collection: download the page from the Oriental Wealth Unit forum and save it in the local folder .2. Page preprocessing: remove all kinds of useless tags from the web page, Extract the text part .3.Chinese participle: as the premise of data mining, the extracted text will be used as the word segmentation processing before the negative information is judged. 4. Negative information judgment: judging the negative information in the text through text classification technology, User Retrieval: by entering the stock code of the listed company, the user acquires the negative news of the company in the Oriental Fortune Bath Forum. On the basis of completing the system design and the complete function of the system, the user retrieves the negative information of the company by entering the stock code of the listed company. This paper also analyzes and studies various algorithms for text classification, and uses the algorithm with high accuracy to realize the negative information judgment function of the system. Finally, the paper summarizes the research results of the subject. The related technology and further research work in this paper are prospected.
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【参考文献】
相关期刊论文 前5条
1 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
2 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
3 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
4 黄颖;黄治平;;HtmIParser提取网页信息的设计与实现[J];江西理工大学学报;2007年06期
5 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期
相关硕士学位论文 前1条
1 李兆福;基于K最短路径的中文分词算法研究与实现[D];哈尔滨工程大学;2009年
,本文编号:1608225
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1608225.html