当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于网页结构的Web信息提取系统的设计与实现

发布时间:2018-06-12 21:11

  本文选题:DOM + 信息提取 ; 参考:《吉林大学》2011年硕士论文


【摘要】:随着网络及其应用的不断普及,Internet已经成为世界上最大的信息库,但这些信息对用户来说并非都是有用的,这些有用的信息通常夹杂在大量无关的结构和文字中,这些无关的结构和文字严重影响了用户获取网页主题信息的效率,也导致Web的可用性的降低。网络信息提取和集成系统的作用是提取Internet网上的数据,将其集成到XML或者关系数据库中,从而为用户提供数据检索、数据挖掘和OLAP等其他信息服务。但是,HTML网页中的数据并非结构化的,并且网页中包含了大量和网页数据无关的HTML标签、图片、flash广告等、这就给信息集成系统集成数据带来了不小的困难,为解决这一困难,相关学者做了大量研究,随之出现了网页主题信息提取相关技术,通过删除网页中冗余网页标签和于主题信息无关的图片、flash广告等,提取出网页的真正主题内容,可以明显地降低网页大小并增加信息的有用性,从而能提高信息集成系统的效率和准确性,也为后续的数据检索、数据挖掘、OLAP等数据服务奠定了基础。因此,网页主题信息提取在理论和应用上都有着十分重要的研究意义和应用价值,并成为近些年来信息系统领域的研究热点之一。 本文通过大量的研究,发现目前的网页主题信息提取方法都有着这样或那样的缺点和不足,因此,本文提出了一种新的网页主题信息提取方法,该方法基于STU-DOM模型,提出了基于该模型的页面结构过滤和分块算法以及基于主题相关度的剪枝,并根据此算法设计和实现了网页主题信息提取系统。 基于分块理论,设计了STU树模型和STU-DOM模型。STU-DOM模型能够有效地描述网页的结构、内容和分块布局,提高了算法的准确性、可靠性和可扩展性。基于STU-DOM模型,提出了HTML结构过滤和分块算法,以及基于主题相关度的剪枝算法。这些算法可以自动地从异构网页中提取出主题信息,有较高的准确性和通用性。 提出并实现了一些优化策略:改进了分块粒度,设计了虚词表和关键词表,加权计算主题相关度。通过优化显著提高了算法的效率和准确性,降低了网页信息冗余度。 实验测试表明,本文提出的方法能够自动、准确、快速地提取出网页的主题信息,而且不改变网页的内容、结构和布局,因此有较高的研究意义和应用价值。
[Abstract]:With the increasing popularity of the Internet and its applications, the Internet has become the largest information base in the world, but this information is not always useful to users. These irrelevant structures and text seriously affect the efficiency of the user to obtain the information on the topic of the web page, and also lead to the decrease of the usability of the Web. The function of network information extraction and integration system is to extract data from Internet and integrate it into XML or relational database, thus providing users with other information services such as data retrieval, data mining and OLAP. However, the data in HTML pages are not structured, and the web pages contain a large number of HTML tags, pictures and flash advertisements that are independent of the page data, which makes it difficult for information integration systems to integrate data. Related scholars have done a lot of research, and then appeared the relevant technology of web page subject information extraction, by deleting redundant page tags and image flash advertising, the real theme content of the page is extracted. It can significantly reduce the size of web pages and increase the usefulness of information, thus improving the efficiency and accuracy of the information integration system. It also lays the foundation for subsequent data retrieval, data mining and other data services such as OLAP. Therefore, the topic information extraction of web pages has important research significance and application value in theory and application, and has become one of the research hotspots in the field of information system in recent years. Through a lot of research, this paper finds that the current methods of extracting topic information of web pages have some shortcomings and shortcomings. Therefore, a new method of extracting topic information of web pages is proposed in this paper, which is based on STU-Dom model. A page structure filtering and blocking algorithm based on this model and pruning based on topic correlation are proposed. According to this algorithm, a web page topic information extraction system is designed and implemented. Based on block theory, STU tree model and STU-Dom model. STU-Dom model can effectively describe the structure, content and block layout of web pages, and improve the accuracy, reliability and scalability of the algorithm. Based on STU-Dom model, HTML structure filtering and blocking algorithm and pruning algorithm based on topic correlation are proposed. These algorithms can automatically extract topic information from heterogeneous web pages, and have high accuracy and versatility. Some optimization strategies are put forward and implemented, such as improving block granularity, designing function word table and keyword table, and calculating the correlation degree of topic weighted. By optimizing the algorithm, the efficiency and accuracy of the algorithm are improved significantly, and the redundancy of web page information is reduced. The experimental results show that the proposed method can automatically, accurately and quickly extract the subject information of the web page without changing the content, structure and layout of the web page, so it has high research significance and application value.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09

【相似文献】

相关期刊论文 前10条

1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期

2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期

3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期

4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期

5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期

6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期

7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期

8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期

9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期

10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期

相关会议论文 前10条

1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年

3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年

8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年

10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

相关重要报纸文章 前10条

1 赵晓涛;Web安全 服务为王[N];网络世界;2008年

2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年

3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年

4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年

5 闫冰;“推”出Web交付新天地[N];网络世界;2009年

6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年

7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年

8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年

9 ;Web2.0工具使用须谨慎[N];网络世界;2009年

10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年

相关博士学位论文 前10条

1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年

3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年

5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

7 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年

8 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年

9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年

10 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年

相关硕士学位论文 前10条

1 高杨;基于Web标准的网页界面艺术个性化的研究与实现[D];北京林业大学;2010年

2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年

3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年

4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年

5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年

6 杨培颖;Web页面语义信息提取方法的研究[D];东北大学;2008年

7 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年

8 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年

9 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年

10 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年



本文编号:2011102

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2011102.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82342***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com