当前位置:主页 > 管理论文 > 移动网络论文 >

基于网站层次结构和主题模型LDA的网站自动摘要

发布时间:2018-04-29 20:19

  本文选题:Web网页 + 网站自动摘要 ; 参考:《计算机工程》2017年04期


【摘要】:近年来自动摘要方面的研究大多是关于多文档和Web网页的,而对网站自动摘要的研究较少。为此,基于主题模型隐含狄利克雷分布(LDA)和网站层次结构提出一个可以自动生成网站摘要的算法。该算法可获取整个网站内的网页信息并进行整合,根据提出的句子权重公式计算句子权重,选取权重最高的句子作为网站摘要。以20个商业和学术网站作为实验对象,使用ROUGE评测标准,结果表明,与仅使用主题模型LDA获取的网站摘要相比,不带停用词的ROUGE-1和ROUGE-L提高0.32,带停用词的ROUGE-1提高0.39,ROUGE-L提高0.38。与网站首页摘要相比,不带停用词的ROUGE-1提高0.03,ROUGE-L提高0.06,带停用词的ROUGE-1提高0.08,ROUGE-L提高0.07。
[Abstract]:In recent years, the research on automatic summary is mostly about multi-document and Web pages, but the research on automatic summary of Web site is less. For this reason, an algorithm for automatically generating web abstracts is proposed based on the implicit Delikley distribution (LDAs) and the hierarchical structure of the web site. The algorithm can obtain and integrate the web page information of the whole website, calculate the sentence weight according to the proposed sentence weight formula, and select the sentence with the highest weight as the summary of the website. Using 20 commercial and academic websites as experimental subjects and using ROUGE evaluation criteria, the results show that the ROUGE-1 and ROUGE-L without deactivating words and ROUGE-1 with deactivated words are 0.32 and 0.39% higher than those obtained by using LDA only, and 0.39% of ROUGE-1 with deactivated words are increased by 0.38. Compared with the first page summary of the website, the ROUGE-1 without deactivation words increased 0.03% ROUGE-L increased 0.06%, the ROUGE-1 with deactivated words increased 0.08% ROUGE-L increased 0.07%.
【作者单位】: 华东师范大学计算机科学技术系;
【基金】:国家科技支撑计划项目(2015BAH01F02) 上海张江国家自主创新示范区专项发展资金计划项目(201411-JA-B108-002)
【分类号】:TP391.1;TP393.092

【相似文献】

相关期刊论文 前10条

1 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期

2 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期

3 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期

4 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期

5 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期

6 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期

7 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期

8 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期

9 龙华;何中市;伍星;李双庆;;基于依存内容单元的金字塔自动摘要评估[J];计算机工程;2009年13期

10 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期

相关会议论文 前8条

1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前2条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

相关硕士学位论文 前10条

1 王馨;网络新闻热点发现研究[D];河北大学;2015年

2 李子健;专题摘要自动生成技术研究[D];浙江大学;2015年

3 熊娇;基于词项—句子—文档三层图模型的多文档自动摘要[D];江西师范大学;2015年

4 程园;舆情分析中维吾尔文文本自动摘要研究[D];新疆大学;2015年

5 梁入文;基于文本意见挖掘的烟台大学教学评价系统设计与实现[D];电子科技大学;2015年

6 杨瑞;在线网络中文本自动摘要系统研究和实现[D];南京航空航天大学;2014年

7 唐亚娟;基于文本挖掘的粮食情报分析技术与系统实现[D];河南工业大学;2015年

8 董非;基于图的主观性多文本自动摘要方法研究和实现[D];上海交通大学;2015年

9 程娟;中文文档自动摘要技术[D];山东大学;2006年

10 周凯;中文突发事件新闻自动摘要的研究[D];上海交通大学;2008年



本文编号:1821401

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1821401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd2f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com