当前位置:主页 > 科技论文 > 软件论文 >

基于自动摘要的无障碍移动新闻系统的设计与实现

发布时间:2018-08-06 09:49
【摘要】:随着移动互联网的飞速发展和移动智能设备的大规模普及,人们获取新闻信息的渠道也越来越多。视障群体由于在视力方面的缺陷,仅能依靠听觉和触觉从外界获取信息,不能像健全人一样便捷地使用手机、平板电脑等智能设备,获取新闻信息的途径较为匮乏,选择性极少。现有的新闻类应用软件很少有针对视障群体做过适配和优化,视障人士几乎无法使用,阅读效率非常低。因此,开发一款面向视障群体的无障碍新闻类软件具有十分重要的意义。在此背景下,实验室与中国盲文出版社合作希望能开发一款适合视障群体使用的无障碍移动新闻系统。本文首先从保证新闻数据的全面性和多样性出发,提出并实现了一种支持动态页面爬取的新闻网络爬虫。在URL爬取方面,该爬虫以无界面浏览器Htm1Unit为基础,通过模拟用户点击或滑动等行为触发动态网页的脚本事件,从而解决了动态页面中URL难以获取的问题。然后,在URL去噪方面,本文设计了一种基于正则表达式的去噪方法,可以有效去除非新闻链接,从而提高新闻网络爬虫的效率,避免资源浪费。在最后新闻数据提取方面,采集并定制模版,实现了高准确率的基于模版的新闻信息提取方法。其次,为了提高视障群体阅览新闻的效率,提出并实现了一种基于TextRank改进的自动摘要方法。本文首先采用BM25相似度计算方法实现了经典的TextRank算法,然后将新闻标题和小标题的结构作用考虑进来,通过计算新闻标题、小标题与各句子间的相似度得到调整向量,最后通过调整向量影响各句子收敛后的TextRank得分,经过实验分析改进后的方法优于经典的TextRank方法。最后,本文在以上研究的基础上设计并实现了面向Android平台的基于自动摘要的无障碍移动新闻系统,视障群体通过无障碍客户端可以更便捷更高效地获取新闻信息。
[Abstract]:With the rapid development of mobile Internet and the large-scale popularization of mobile intelligent equipment, there are more and more channels for people to obtain news information. The Visual Handicapped groups can only rely on hearing and touch to obtain information from the outside world because of their defects in vision. They can not use mobile phones, tablet computers and other intelligent devices as conveniently as the sound people. The ways of news information are scarce and less selective. There are few existing news applications that have been adapted and optimized for the visually impaired group, the visually impaired people are almost impossible to use, and the reading efficiency is very low. Therefore, it is of great significance to develop an obstacle free news software oriented to the visually impaired group. In cooperation with the Chinese Braille Press, we hope to develop an obstacle free mobile news system suitable for the visually impaired group. This paper first proposes and implements a news network crawler that supports dynamic page crawling from the integrity and diversity of the news data. In the URL crawling, the crawler is with no interface browser Htm1Unit. On the basis of simulating the script events of dynamic web pages by simulating the behavior of user clicking or sliding, the problem that URL is difficult to obtain in the dynamic page is solved. Then, in the aspect of URL denoising, this paper designs a denoising method based on regular expression, which can effectively remove non news links and thus improve the efficiency of the news network crawler. Avoid the waste of resources. In the end of the news data extraction, collect and customize the template to achieve a high accurate template based news information extraction method. Secondly, in order to improve the efficiency of the visual barrier group reading news, a new automatic summary method based on TextRank is proposed and implemented. This paper first uses the BM25 similarity computing party. The classical TextRank algorithm is realized by the method, and then the structure of news headlines and small headlines is taken into account. By calculating the news headlines and the similarity between the small headlines and each sentence, the adjustment vector is obtained. Finally, the TextRank score after the convergence of each sentence is influenced by the adjustment vector, and the improved method is superior to the classic TextR after the experimental analysis. Ank method. Finally, on the basis of the above research, this paper designs and implements an obstacle free mobile news system based on automatic summary based on the Android platform. The visual barrier group can obtain news information more conveniently and efficiently through the barrier free client.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 ;中英文自动摘要系统软件问世[J];情报理论与实践;2001年01期

2 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期

3 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期

4 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期

5 王彩霞;试论自动摘要技术[J];晋图学刊;2003年02期

6 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期

7 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期

8 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期

9 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期

10 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期

相关会议论文 前8条

1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前2条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

相关硕士学位论文 前10条

1 王馨;网络新闻热点发现研究[D];河北大学;2015年

2 李子健;专题摘要自动生成技术研究[D];浙江大学;2015年

3 熊娇;基于词项—句子—文档三层图模型的多文档自动摘要[D];江西师范大学;2015年

4 程园;舆情分析中维吾尔文文本自动摘要研究[D];新疆大学;2015年

5 梁入文;基于文本意见挖掘的烟台大学教学评价系统设计与实现[D];电子科技大学;2015年

6 杨瑞;在线网络中文本自动摘要系统研究和实现[D];南京航空航天大学;2014年

7 唐亚娟;基于文本挖掘的粮食情报分析技术与系统实现[D];河南工业大学;2015年

8 董非;基于图的主观性多文本自动摘要方法研究和实现[D];上海交通大学;2015年

9 吴灿丽;基于改进HMM下自动摘要的生成[D];浙江理工大学;2017年

10 官宸宇;面向事件的社交媒体文本自动摘要研究[D];武汉大学;2017年



本文编号:2167352

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2167352.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3f1d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com