当前位置:主页 > 管理论文 > 移动网络论文 >

基于开放链接模式的网站分类技术研究

发布时间:2017-10-18 21:14

  本文关键词:基于开放链接模式的网站分类技术研究


  更多相关文章: 网站分类 知识库 导航站点 分类算法 开放链接模式


【摘要】:网站分类是将一些已有的分类标签指定给特定网站的过程,对网站进行分类不仅可以有效的帮助用户准确的定位到所需的资源,而且可以很大程度上缓解信息杂乱的问题。本文对基于开放链接模式的网站分类技术进行了研究,本文内容主要包括:1.基于开放链接模式相关工作zhishi:schema构建了网站分类体系以及根据Zhishi.me、Babel.Net以及哈工大同义词词林三个知识库获取了各分类对应的特征词表,以作为网站分类的基础。2.提出了根据网站主页内部HTML页面标记及相应文本,以及主页链接页面的标记及相应文本,构建能表示网站特征的特征词表的方法。3.设计了网站特征词表与可能网站分类的各类别的特征词表的加权匹配算法及基于最大匹配度的网站分类算法。4.通过实验,验证了所提出的匹配算法及网站分类算法的有效性。5.基于网站分类算法,实现了网站推荐算法并设计了实现了网站分类和网站推荐功能的网站导航系统。本文的主要贡献是提出了基于开放链接模式的网站分类算法,将网站标签内容和邻居网页的概念运用到站点分类,并综合使用了多个中文知识库对分类文本特征进行扩充。
【关键词】:网站分类 知识库 导航站点 分类算法 开放链接模式
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第一章 绪论10-13
  • 1.1 研究背景与意义10-11
  • 1.2 相关研究现状11-12
  • 1.3 研究内容12
  • 1.4 本文结构安排12-13
  • 第二章 背景知识13-20
  • 2.1 网页分类13-15
  • 2.1.1 网页分类特征13-15
  • 2.1.2 网页分类算法综述15
  • 2.2 网站分类15-16
  • 2.3 开放链接数据16-18
  • 2.4 开放链接模式18-19
  • 2.5 导航站点19-20
  • 第三章 基于开放链接模式的网站分类20-29
  • 3.1 问题定义20-21
  • 3.1.1 基于开放链接模式的分类体系20
  • 3.1.2 分类算法输入输出20-21
  • 3.2 站点去重之Simhash算法21-23
  • 3.2.1 Simhash算法介绍21-22
  • 3.2.2 Simhash算法用于站点去重22-23
  • 3.3 网站分类算法描述23-27
  • 3.3.1 获取网站内容23-25
  • 3.3.2 获取分类特征25-26
  • 3.3.3 综合站点内容和分类特征计算26-27
  • 3.4 网站分类应用——网站推荐27-29
  • 3.4.1 网站推荐介绍27-28
  • 3.4.2 网站推荐算法28-29
  • 第四章 实验与评估29-40
  • 4.1 实验流程29
  • 4.2 实验数据准备29-34
  • 4.2.1 导航站点爬取29-31
  • 4.2.2 分类特征获取31-33
  • 4.2.3 站点内容爬取33-34
  • 4.3 站点分类对比实验34-37
  • 4.3.1 站点特征范围选择34-35
  • 4.3.2 网站标签内容权值选择35-37
  • 4.4 对比实验37
  • 4.5 基于开放链接模式的站点推荐实验37-40
  • 第五章 基于站点分类的导航站点设计40-43
  • 5.1 导航站点设计思路40
  • 5.2 导航站点设计结果40-43
  • 5.2.1 站点首页设计40-41
  • 5.2.2 导航网站功能41-43
  • 第六章 总结与展望43-44
  • 6.1 工作总结43
  • 6.2 未来展望43-44
  • 致谢44-45
  • 参考文献45-49
  • 攻读硕士学位期间科研成果49

【相似文献】

中国期刊全文数据库 前10条

1 程舒通;徐从富;;网站结构优化技术研究进展[J];计算机应用研究;2009年06期

2 徐t;;谈网站结构优化技术研究进展[J];东方企业文化;2010年03期

3 许波勇;;论企业网站的推广[J];电脑开发与应用;2011年06期

4 程舒通;;网站结构优化系统研究[J];科技传播;2011年24期

5 王春艳;张彦芳;;网站结构规划探讨[J];东方企业文化;2013年04期

6 ;1999百家顶级网站(一)[J];现代计算机;2000年01期

7 冯江,周毅刚;网站介绍(5)[J];新建筑;2001年05期

8 董玉民;青岛建筑工程学院网站的规划与建立[J];青岛建筑工程学院学报;2001年03期

9 胡纲;轻松更新自己的网站[Macromedia Contribute 1.0][J];个人电脑;2003年02期

10 王有为,汪定伟;基于关联系数的电子超市网站结构优化模型及算法复杂性分析[J];小型微型计算机系统;2004年04期

中国重要报纸全文数据库 前10条

1 正言;企业网站步入互动通道[N];中国经营报;2007年

2 王兆成;旅行社网站服务功能探讨[N];中国旅游报;2008年

3 孟辉邋薛丽英;山西太原捣毁两个淫秽色情网站[N];中国新闻出版报;2008年

4 刘安;档案期刊与网络相互强身[N];中国档案报;2003年

5 何佳讯;撒“网”捕金[N];厂长经理日报;2001年

6 小新;用BlazingTools Instant Source工具 分析网站代码[N];中国电脑教育报;2004年

7 肖丹 陈兰琴 念红梅 陈正红;全球“最佳中之最佳”BtoB网站[N];国际经贸消息;2000年

8 本报记者 陈亮;Google重纳宝马德国网站[N];南方日报;2006年

9 飞飞;专业级的选择[N];中国电脑教育报;2002年

10 ;小生产与大市场 网上沟通[N];农民日报;2000年

中国硕士学位论文全文数据库 前10条

1 翁锦琳;基于Web使用挖掘的网站日志分析系统的研究与实现[D];福州大学;2014年

2 雷军;基于ThinkPHP框架的视频教学网站的设计和实现[D];湖北大学;2015年

3 刘明鸣;基于Web使用挖掘的网站结构优化技术研究[D];电子科技大学;2016年

4 芮文;基于开放链接模式的网站分类技术研究[D];东南大学;2015年

5 何坤鹏;基于本体的网站结构知识获取与分析[D];北京化工大学;2007年

6 杜华;电子商务网站结构优化模型与算法研究[D];首都师范大学;2009年

7 贾梦青;基于用户访问行为分析的网站分类研究[D];郑州大学;2009年

8 郜鑫博;基于关键资源的网站分类研究[D];哈尔滨工业大学;2009年

9 贾小娟;基于交互理论的儿童网站引导性界面设计研究[D];河北工业大学;2015年

10 丛帅;基于关键资源的网站分类研究[D];哈尔滨工业大学;2010年



本文编号:1057176

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1057176.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fc9f1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com