当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于本体的视频服务网站监管技术研究

发布时间:2018-04-24 23:23

  本文选题:本体 + 本体自动构建 ; 参考:《中国科学技术大学》2013年博士论文


【摘要】:随着网络带宽的提高、网络用户的增加,以及数码产品的普及,网上视频内容日益丰富,收看网络视频的用户急剧增多,视频服务网站也不断涌现。然而由于开放性、匿名性以及资源缺乏统一管理的特点,互联网在带给人们便利的同时,许多不良视频服务网站也混入其中。这些不良视频服务网站对青少年的健康成长和社会的稳定有着非常不利的影响。尽管国家已加大了打击力度,然而事实上不良视频服务网站仍然存在,且通过搜索引擎的帮助获取的难度很低。因此如何自动发现和准确识别不良视频服务网站从而对其进行有效监管成为了值得研究的问题。 目前视频服务网站监管主要存在的难点和问题包括:(1)视频服务网站的自动发现,目前仅中国的网站数量就已经达到230万之多,如何从互联网的海洋中自动发现视频服务网站成为了视频服务网站监管的重要问题;(2)支持网站健康性评估的领域本体自动构建技术,不良视频领域本体可以提供计算机可理解的不良视频的语义描述,从而为后续的不良视频网页识别以及网站的健康性评估提供语义基础,传统的领域本体自动构建方法多依赖于自然语言处理技术,受限于自然语言处理工具的性能,构建出的领域本体的质量往往不高;(3)基于领域本体的网站健康性分析评估技术,在拥有了不良视频领域本体之后,如何设计出一种可以利用本体中的文字和结构信息的网页相关度计算方法从而准确地计算出网站的健康性,就成为了值得研究的问题。针对这三个问题,本论文的主要研究工作和创新点如下: 1.提出了视频服务网站的自动发现方法。 针对视频服务网站自动发现的问题,本文首先提出了一种基于元搜索的视频服务网站的自动发现方法,该方法设计了一种关键词更新和评价机制用以向元搜索系统提供高质量的搜索关键词,元搜索的结果将作为初始网站列表提供给主题爬行模块以进一步发现更多的视频服务网站。通过分析网页的标签特征和候选播放器的视觉特征,本文提出了一种基于多特征多策略的视频播放页识别方法。在确定一个视频播放页后,将该页面存为播放页模板,后续视频播放页的识别利用其与播放页模板的相似性来判定。在对搜索过程所遇到的网页及链接主题相关度的分析基础上,本文提出了一种URL的预期剩余能量模型用以计算每个方向的搜索能量,进而决定主题爬虫的搜索方向和步长。实验中,基于多特征多策略的视频播放页识别准确率和召回率分别达到了99.21%和99.24%,而基于预期剩余能量模型的主题爬行算法则明显优于对比算法的性能。 2.提出了基于超链接结构图聚类的领域本体自动构建方法。 针对领域本体自动构建的问题,着重研究了领域概念的自动识别和领域概念间同义/近义关系的自动构建方法。首先,本文提出了基于超链接结构图聚类的领域概念识别方法,该方法首先利用网络爬虫从指定的入口地址处深度受限广度优先遍历Wiki页面,构建关于某特定领域的无向超链接结构图。然后利用得到的网页数据库和词汇表构建词汇-文档矩阵,使用潜在语义索引算法和余弦相似度计算节点间的相似度,将该相似度作为相应边的权重,再利用有权图渗滤算法对有权无向链接结构图进行聚类,并对聚类结果进行评估,进而得到相应的领域概念。针对概念间同义/近义关系的自动构建,本文首先构建链接-词语的共现矩阵,使用余弦相似度度量,再使用自底向上的凝聚型层次聚类算法对词语进行聚类,从而得到词语间的同义/近义关系。实验结果显示,领域概念识别的准确率在top-10阶段接近96%,而同义/近义联系的识别准确率则接近90%。 3.提出了基于领域本体的网站健康性评估方法。 针对网站健康性的计算问题,本文提出了一种基于领域本体的网站健康性计算方法。传统的网页分类和相关性计算方法使用的文档表示模型通常假设特征项之间是相互独立的,并且特征词的权值大都基于词频信息,忽略了词的位置及上下文信息,而已有的本体分类系统只是将本体用于辅助分类的过程,无法有效利用到本体自身的结构和文字信息。针对这些问题,本文提出了一种基于网页概念树和领域本体树匹配的网页健康性计算方法。该方法首先提出了一种可以不依赖于独立性假设的新的网页文档表示模型,并在该模型的基础上使用了一种可以利用到词语的位置及上下文信息的词语加权算法,最后在新的网页表示模型的基础上,提出了一种可以有效利用领域本体的结构及文字信息的网页健康性计算方法。实验结果显示,该方法的不良网页识别准确率、召回率和F1值分别为96%、95.7%和95.8%,视频服务网站健康性评估的准确率则达到了95%。 上述方法已部分应用于国家863项目“结合语义的视频网站自动发现与分析评估服务”课题中的主题聚集搜索和网站内容分析评估部分,并将应用于国家科技支撑计划“增强型搜索系统架构、关键技术及测试规范的研究”以及公安部重点研究计划项目“多媒体服务网站监管技术研究”之中。
[Abstract]:With the increase of network bandwidth , the increase of network users , and the popularization of digital products , the online video content is increasingly rich , and the users of network video are increasing rapidly , and the website of video service is also emerging . However , because of the openness , anonymity and lack of uniform management of resources , many poor video service websites have been mixed . However , the website of poor video service is still in existence , and the difficulty of getting through the help of the search engine is very low . Therefore , it is worth studying how to automatically discover and accurately identify the website of poor video service so as to effectively supervise it .

At present , the difficulties and problems existing in the video service website supervision include : ( 1 ) the automatic discovery of the video service website , the number of websites in China is now more than 2.3 million , and how to automatically discover the video service website from the sea of the Internet becomes an important issue of the video service website supervision ;
( 2 ) Support website health evaluation field ontology automatic construction technology , the poor video field ontology can provide the semantic description of the computer - understandable poor video , thus providing the semantic foundation for the subsequent poor video webpage recognition and the health evaluation of the website , the traditional domain ontology automatic construction method relies on natural language processing technology , is limited by the performance of the natural language processing tool , and the quality of the constructed field ontology is often not high ;
( 3 ) Based on the field ontology ' s website health analysis and evaluation technology , how to design a web page affinity calculation method which can utilize the text and the structure information in the ontology to calculate the health of the website accurately after having the main body of the poor video , has become a question worth studying . For these three problems , the main research and innovation points of this paper are as follows :

1 . The automatic discovery method of video service website is proposed .

This paper presents a method for automatically discovering video service websites based on meta - search . The method designs a keyword updating and evaluation mechanism to provide high - quality search keywords to the meta - search system .

2 . The automatic construction method of domain ontology based on hyperlink structure clustering is proposed .

In order to solve the problem of auto - construction of domain ontology , we focus on the automatic identification of domain concept and the automatic construction method of the same meaning / near - meaning relationship between domain concepts . First of all , this paper proposes a domain concept recognition method based on hyperlink structure clustering . Firstly , we construct vocabulary - document matrix from the depth - limited breadth of the specified portal address . Then , we use the obtained web page database and vocabulary to construct vocabulary - document matrix . Then , we use the right - graph percolation algorithm to cluster the words . The results show that the accuracy rate of domain concept recognition is close to 96 % in top - 10 stage , while the accuracy rate of synonymous / near - sense contact is close to 90 % .

3 . A health evaluation method based on domain ontology is proposed .

This paper presents a method for calculating the health of a website based on the domain ontology . A new method for calculating the health of the web page based on the concept tree of the web page and the contextual information is presented in this paper .

The above - mentioned methods have been applied to the topic aggregation search and website content analysis and evaluation part of the project " Automatic Discovery and Analysis Evaluation Service " of the National 863 Project , and will be applied to the National Science and Technology Support Plan " Enhanced Search System Architecture , Key Technologies and Test Specifications " and the " Research on Supervision Technology of Multimedia Service Website " of the key research program of the Ministry of Public Security .

【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】

相关期刊论文 前5条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 樊小辉;石晨光;;本体构建研究综述[J];舰船电子工程;2011年06期

3 杨博;刘大有;金弟;马海宾;;复杂网络聚类方法[J];软件学报;2009年01期

4 黄芳;刘友华;张克状;李寅;;结合链接结构和共现分析的同义词自动识别方法[J];现代情报;2009年08期

5 易荣锋;朱六璋;尹文科;;互联网视频摘要信息自动抽取[J];计算机系统应用;2010年10期

相关博士学位论文 前2条

1 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年

2 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年

相关硕士学位论文 前1条

1 易荣锋;互联网视频信息获取技术研究与实现[D];中国科学技术大学;2010年



本文编号:1798730

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1798730.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8e4cd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com