当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向藏文WEB热点事件发现系统的设计

发布时间:2018-07-21 19:13
【摘要】:自20世纪70年代互联网这一媒体诞生后,我们就进入了一个信息空前丰富的时代,与此同时信息传播的方式也发生了很大的变化,越来越多的人愿意通过网络媒体来传递自己的观点、思想和态度。由于这些信息没有进行统一的组织和管理,这就使得发现并管理我们所需要的信息变得困难重重,因此人们迫切需要一种工具能够快速的从网络上获取他们所需要的信息。 人们通过搜索引擎(search engine)能够获取自己需要的信息,但由于其采用关键字匹配算法并且未对结果进行过滤,因此搜索到的网页很多,罗列了许多毫不相关的信息,用户需要花费不少时间从这些结果中找到自己所需的信息。对于热点事件,搜索引擎显得更是无可奈何。不过每年会有新闻机构评选出某个领域的热点事件,但由于时间周期是以年为单位,并且结果是人评选出的,结果的即时性和客观性无法保证。 本文以人民网藏文网站的语料为研究对象,利用TDT(Topic Detection and Tracking)技术对新闻事件进行识别与跟踪,并对新闻事件进行聚类,从而设计了一个热点发现系统,该系统可以让用户了解任意一段时间内藏文网络上的热点事件,而且结果的客观性比较强。 本文首先介绍TDT相关理论和关键技术,以实现网络新闻流中事件的识别与跟踪;接着介绍利用网络爬虫(Crawler)来抓取指定范围内的网页,提取正文消除噪声,通过分词生成权值向量;进而通过对热点事件发现算法的研究提出了一种事件热度计算的方法,提高了系统对新热点事件的敏感度,再采用改进的两层聚类策略对文本进行聚类,从而得到事件列表。 最后通过对2011年新闻语料进行了实验,对上述算法和思想进了行验证,并做了相关评测,结果显示本系统取得了较好的效果。
[Abstract]:Since the birth of the Internet as a media in the 1970s, we have entered an era of unprecedented wealth of information, and at the same time, the way of information dissemination has also undergone great changes. More and more people are willing to communicate their views, ideas and attitudes through the Internet media. Due to the lack of unified organization and management of these information, it is difficult to find and manage the information we need. Therefore, people urgently need a tool to quickly obtain the information they need from the network. People can get the information they need through search engine (search engine), but because they use keyword matching algorithm and don't filter the results, they search many pages and list a lot of irrelevant information. Users spend a lot of time finding the information they need from these results. For hot issues, search engines are more helpless. However, every year, news organizations select hot events in a certain field, but because the time cycle is based on years and the results are chosen by people, the immediacy and objectivity of the results cannot be guaranteed. This paper takes the corpus of people's net Tibetan language website as the research object, uses topic Detection and tracking (TDT) technology to identify and track news events, and cluster news events, so as to design a hot spot discovery system. The system enables users to understand the hot events in Tibetan language network for any period of time, and the results are more objective. This paper first introduces the relevant theories and key technologies of TDT in order to realize the identification and tracking of events in the network news stream, and then introduces the use of Crawler to grab web pages in a specified range and extract the text to remove noise. The weight vector is generated by word segmentation, and a method to calculate the heat of the event is proposed through the research of the algorithm of hot spot event discovery, which improves the sensitivity of the system to the new hot spot event. Then the improved two-layer clustering strategy is used to cluster the text to get the list of events. Finally, through the experiment of news corpus in 2011, the algorithm and idea are verified and evaluated. The results show that the system has achieved good results.
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期

2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期

3 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期

4 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期

5 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期

6 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期

7 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期

8 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期

9 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期

10 孙学刚,陈群秀,马亮;基于主题的Web文档聚类研究[J];中文信息学报;2003年03期

相关博士学位论文 前1条

1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年

相关硕士学位论文 前1条

1 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年



本文编号:2136561

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2136561.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c47a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com