Web新闻专题组织与生成系统研究
发布时间:2020-01-22 15:17
【摘要】: 随着互联网的迅猛发展与普及,Web新闻信息呈爆炸式的增长。人们希望方便快捷地从海量的Web新闻中获取自己感兴趣的信息,并能了解某一突发的新闻事件或热点事件的前因后果和来龙去脉。应用主题检测与追踪技术、新闻来龙去脉生成技术,实现对新闻信息自动组织和专题生成,帮助用户有效地收集、检索和管理新闻信息,为用户提供高层次的信息服务,这在搜索引擎、信息监控、知识管理等应用领域具有极其重要的实用意义。本文首先分析新闻专题组织与生成系统的基本原理与结构,及其所面临的主要困难与相应的技术手段,然后分别就系统各主要模块的关键技术进行研究,主要做了如下五个方面工作: (1)研究了当前网页信息采集所遇到的困难,设计并实现了Web新闻信息采集器。该采集器对宽度采集优先策略进行改进,在采集过程中进行了网页类型判断。 (2)详细地分析了Web中导航条、广告信息、版权信息等噪声内容使主题检测性能下降的问题,研究了Web噪声净化技术,并给出了一种基于向量空间模型的网页噪声净化方法。 (3)研究了基于自适应重心的主题检测方法。新方法针对主题检测中事件动态发展可能会导致后继故事判断错误的现象,用命名实体作为特征项来表示主题重心,通过组合初始的主题重心以及每一次动态修正后的主题重心,构建用于检测后继故事的总主题检测器。。 (4)研究了基于LS-SVM的新闻主题追踪方法。该方法利用隐含语义分析(Latent Semmantic Indexing,LSI)完成文本特征降维及语义表示,然后采用支持向量机(SVM)进行新闻主题追踪,从而实现语义层次的新闻主题追踪。 (5)研究了基于NS-IMMC的新闻专题来龙去脉生成方法。该方法根据新闻结构特点(News Structure,NS)抽取文摘句;然后利用改进的最小最大聚类算法(Improve Min-Max Clustering,IMMC)对文摘句进行聚类,最后按照新闻文档的时间顺序输出文摘句生成多文档摘要,用来表示专题来龙去脉。
【图文】:
噪声的去除二’噪声内容通常分布在主题内容周围,有时也夹杂在主题内容中间,但它们并无内容相关性。从图34可以看出一个新闻网页一般由下面几个部分组成【301:①最上方的导航链接,例如:“首页”、“娱乐”;②“无处不在”的广告链接;③检索输入界面;④版权信息;⑤页面主题区。需要特别注意的一个现象:现在许多站点的收入都来自于广告,而且随着因特网的普及,这个现象会越来越明显。设计者在设计广告时考虑的首要问题是如何吸引用户的,’g良球”。因为图像相比文字具有更强的表现力,所以通常网页中的广告都是以图像的形式嵌入到网页中。如果用户对广告感兴趣,则点击图片就可以进入广告自己的站点。实际上,人们对广告信息不感兴趣,而且
文档树结构示意图
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP319
本文编号:2571979
【图文】:
噪声的去除二’噪声内容通常分布在主题内容周围,有时也夹杂在主题内容中间,但它们并无内容相关性。从图34可以看出一个新闻网页一般由下面几个部分组成【301:①最上方的导航链接,例如:“首页”、“娱乐”;②“无处不在”的广告链接;③检索输入界面;④版权信息;⑤页面主题区。需要特别注意的一个现象:现在许多站点的收入都来自于广告,而且随着因特网的普及,这个现象会越来越明显。设计者在设计广告时考虑的首要问题是如何吸引用户的,’g良球”。因为图像相比文字具有更强的表现力,所以通常网页中的广告都是以图像的形式嵌入到网页中。如果用户对广告感兴趣,则点击图片就可以进入广告自己的站点。实际上,人们对广告信息不感兴趣,而且
文档树结构示意图
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP319
【引证文献】
相关期刊论文 前1条
1 薛丽敏;薛虹军;;一种新型的网页去噪及网页类型判断方法[J];信息网络安全;2013年06期
,本文编号:2571979
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2571979.html