Web结构挖掘与高维数据挖掘研究
[Abstract]:Data mining is one of the leading research fields in artificial intelligence, machine learning, pattern recognition and information decision-making. With the rapid development of Web and the improvement of data sampling ability, Web mining and high-dimensional data mining have become two important tasks of data mining. Web is the most important platform for people to spread and obtain information in modern society. The number of web pages contained in Web has reached one billion, and it is still increasing rapidly, and the amount of information contained in Web is increasing explosively. Because the information in Web is unstructured and self-organized, the traditional information retrieval technology is difficult to be effectively applied in the actual requirements. In addition to Web pages, there are plenty of hyperlinks in Web. Hyperlinks contain the importance evaluation information of web pages, so Web structure mining (I. E. Web link analysis) is the most important way to improve the quality of Web information retrieval. Clustering analysis is one of the basic methods of data mining and has been widely used in many fields. In recent years, many data in clustering problems generally show high dimensional features. However, the existing classical clustering methods are based on the assumption of low dimensional data space, and can not effectively cluster high-dimensional data. High-dimensional data clustering problem has become the focus of cluster analysis. Manifold clustering is a high dimensional data clustering method developed in recent years and widely studied. Aiming at the two typical problems of Web structure mining and high dimensional data clustering in data mining, this paper studies and analyzes the search engine page sorting algorithm based on link analysis and the Web community discovery algorithm. The effective dissimilarity measure in manifold clustering and the low rank approximation for large-scale high-dimensional data flow clustering are discussed in this paper. The main contributions are as follows: (1) the characteristics of PageRank and HITS algorithms based on link analysis are analyzed. The PageRank algorithm framework based on multilevel attenuation model is proposed. According to the attenuation model, the weights of direct and indirect links between pages are allocated, which improves the accuracy of query. An improved HITS algorithm based on page similarity and link popularity is proposed. The weights of links are assigned according to the similarity between pages relative to query topics and the popularity of links between pages. The problem of topic drift in HITS algorithm is effectively alleviated. (2) the relationship between the side capacity and the community size in the community discovery technology based on the maximum flow is deeply studied, and the characteristics of the link structure are analyzed from the perspective of community discovery. This paper proposes a method to allocate the edge capacity by using the probability distribution of the entry and output of the web pages, which reduces the possibility of the noise pages being extracted and improves the quality of the network community. (3) the effective dissimilarity degree based on the neighborhood path is proposed, which strengthens the class feature of the low dimensional representation of the data obtained by the manifold learning algorithm, and improves the clustering effect through the manifold learning. The relationship between the approximation degree of the eigenvector of the large scale kernel matrix and the sampling points by using the Nystrom extension method is analyzed. Based on this analysis, an incremental sampling strategy is proposed. The clustering quality of accelerating manifold clustering using Nystrom extension method is improved.
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 宁彬;;Web数据挖掘综述[J];华南金融电脑;2006年02期
2 梅薇;;Web数据挖掘初探[J];中国集体经济;2008年06期
3 张禹;;Web结构挖掘算法的比较改进研究[J];硅谷;2009年19期
4 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
5 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
6 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
7 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
8 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
9 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
10 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
相关会议论文 前10条
1 徐仁干;吴共庆;李海光;胡学钢;吴信东;;基于Web的频繁分子结构挖掘系统[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
相关重要报纸文章 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
相关博士学位论文 前10条
1 于红;Web结构挖掘与高维数据挖掘研究[D];大连理工大学;2012年
2 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
6 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
7 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
9 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
10 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
相关硕士学位论文 前10条
1 刘嘉;Web结构挖掘研究[D];西安电子科技大学;2009年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 李晓明;Web点击流数据的聚类技术研究[D];东北大学;2009年
5 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
6 李远方;基于云计算的Web结构挖掘算法研究[D];云南大学;2011年
7 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
8 胡峰;Web数据挖掘及其在网络新闻文本数据中的应用[D];电子科技大学;2010年
9 李莹;基于最大流与页面相似度值的Web结构挖掘研究[D];陕西师范大学;2011年
10 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
,本文编号:2327928
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2327928.html