网站自动摘要及其若干关键技术研究

发布时间：2018-05-05 02:01

本文选题：网站 + 网站自动文摘　；参考：《华东师范大学》2017年硕士论文

【摘要】：随着互联网络规模的不断扩大,大量的网络数据正以飞快的速度增长。互联网逐渐成为人们获取知识的主要途径。搜索引擎的出现帮助用户解决了一部分查找信息的问题,但是搜索引擎存在着精度不高的缺点。为了更好的筛选搜索引擎返回的信息,把自动摘要技术运用到网络文本上来成了必要的发展。在互联网上的各类信息提供者中,网站是其中的一个主要来源,然而随着网站复杂度的不断增长,用户寻找信息的难度也不断增加。网站自动摘要可以帮助解决这个问题。目前,开放式分类目录DMOZ(Open Directory Project)等由志愿者人工总结的网站自动摘要已经广泛应用于各个领域之中。但是人工生成的网站摘要需要花费大量的人力和时间维护,并且具有主观性。为此本文提出了适用于学术机构网站和综合类网站的自动摘要方法。目前对于网站自动摘要的研究还不多,主要的网络自动摘要研究聚焦于网页的自动摘要生成。但是网页自动摘要生成方法并不适用于网站。想要获取网站的自动摘要,主要存在着几个关键问题:1)网站文本内容的抽取。网站内包含多个网页,不同于网页自动摘要,只需将单个网页的内容抽取出来,网站自动摘要需要抽取网站内多个页面的内容。同时网页文本结构形式多变,存在着较多的链接、导航条、广告条等非文本信息,如何从繁杂的网页中抽取出文本信息是首先要解决的问题。2)目前有基于统计特征、基于关联图等多文档自动摘要方法,但是直接将这些方法移植于网站自动摘要上来并不适合。因为这些方法并没有考虑文摘生成环境和网站这一特性。3)大型综合类网站内层次结构复杂,网页内容繁多,如何获取这类网站的描述信息并且基于此生成摘要是一个关键问题。对此,本文分析了现有单文档和多文档的自动摘要方法的优缺点,分析了这些方法不宜直接用来生成网站摘要的原因。从网站内容抽取开始,逐步生成网站自动摘要。本文的具体工作和成果包括:首先,本文提出了一种抽取网站文本信息的算法。生成网站摘要的前提是要获取网站的内容。本文算法首先采用了宽度优先搜索策略获取网站中的网页,然后将页面源码解析成DOM树,利用基于统计的方法来实现网站文本信息的抽取。这种方法可以克服传统包装器方法需要提前确定规则的缺点。通过实验分析,本方法可以很好地抽取出适用于接下来生成网站摘要算法的网站综合文本。然后,在生成的网站综合文本上,本文提出了一种基于网站层次结构和主题模型LDA的网站自动摘要算法(H-LDA)。该算法充分利用了句子的"网站"特性,结合传统文档的统计特征生成句子的网站层次结构特征。该算法适用于学术机构网站,这类网站层次结构比较分明。实验证明本文方法生成的摘要比从网站首页获取的信息多。还比较了利用网站层次结构比单独用LDA效果要好。最后,提出了适用于层次结构复杂,网站内页面数量繁多的综合类网站自动摘要算法(SE-LDA)。该算法利用搜索引擎获取这类网站的描述信息,并且利用"搜索引擎排序"特性,从统计特征和语义理解两个方面生成网站摘要。实验证明了本方法的可行性,并且生成摘要比从网站首页获取的信息多。最后通过对比实验验证了 SE-LDA比H-LDA更加适于综合类网站。
[Abstract]:This paper analyzes the advantages and disadvantages of the automatic summarization of Web sites . Finally , the comparison experiment proves that SE - LDA is more suitable for comprehensive web sites than H - LDA .

【学位授予单位】：华东师范大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP391.1

【参考文献】

中国期刊全文数据库前8条

1 刘娜;路莹;唐晓君;李明霞;;基于LDA重要主题的多文档自动摘要算法[J];计算机科学与探索;2015年02期

2 冯永;唐黎;;视觉与标签信息的Deep Web查询页面内容提取[J];重庆大学学报;2012年06期

3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

4 杨潇;马军;杨同峰;杜言琦;邵海敏;;主题模型LDA的多文档自动文摘[J];智能系统学报;2010年02期

5 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期

6 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期

7 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

8 王志琪;王永成;刘传汉;;论自动文摘及其分类[J];情报学报;2005年02期

中国硕士学位论文全文数据库前2条

1 沈怡涛;基于视觉特征和文本结构分析的中文网页自动摘要技术研究[D];华东师范大学;2014年

2 王麒;基于领域本体的Web文档自动摘要关键技术研究与实现[D];华东师范大学;2007年

，

本文编号：1845672

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1845672.html

上一篇：搜索引擎对大学生的认知影响——基于问卷调查与控制实验数据的初步探索
下一篇：基于搜索时间序列聚类的网络用户搜索策略识别

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|