当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于链接信誉分析的网页权威排序分类算法研究

发布时间:2018-03-27 13:41

  本文选题:文本分类 切入点:链接分析 出处:《暨南大学》2012年硕士论文


【摘要】:随着互联网普及,网页数量呈指数增长,用户通过现有搜索引擎进行网页搜索时存在很大困难。究其原因,一是搜索引擎返回结果存在主题混杂,没有根据主题对网页搜索结果进行分类,这增加了用户搜索所需主题类型信息的困难。二是搜索引擎返回检索结果存在网页质量参差不齐(存在垃圾网页,垃圾广告),增加用户筛选高质量信息的困难。针对上述问题,本文做了一下工作。 首先,为了解决搜索引擎返回结果中的网页主题混杂现象,本文将对网页进行主题类别标识,用户可以选择自己需要信息主题类别搜索,从而更快更准确定位到所需信息。 其次为了提高网页文本分类准确度,提出基于特征噪声加权的特征权重算法方法,该方法通过降低用词不规范特征噪声对网页文本分类影响,提高网页文本分类的准确度和健壮性。 再次,针对用户检索的网页质量参差不齐问题,本文把市场经济中的商家信誉模型引入到对网页权威的评价排序。通过挖掘历史链接信誉评价,建立与PageRank算法结合的评价模型对网页进行调整排序,有效提高搜索结果排在前面网页的质量,有效激励网页生产者专注创造高质量的网页。 最后,应用本文思想建立一个系统模型,从而证明本文思想的可用性。
[Abstract]:With the popularity of the Internet, the number of web pages has increased exponentially, and it is very difficult for users to search through existing search engines. Web search results are not classified according to topics, which makes it more difficult for users to search for subject type information. Spam advertising increases the difficulty for users to screen high quality information. In view of the above problems, this paper has done some work. First of all, in order to solve the problem of web page topic confusion in the result of search engine return, this paper will carry on the topic category identification to the web page, the user can choose their own information topic category search, thus locate the required information more quickly and accurately. Secondly, in order to improve the accuracy of web page text classification, a feature weight algorithm based on feature noise weighting is proposed, which can reduce the influence of non-standard feature noise on web text classification. Improve the accuracy and robustness of web page text classification. Thirdly, aiming at the uneven quality of web pages retrieved by users, this paper introduces the reputation model of merchants in the market economy into the ranking of the evaluation of web page authority. An evaluation model combined with PageRank algorithm is established to adjust and sort web pages, which can effectively improve the quality of search results in front of web pages and encourage web page producers to focus on creating high quality web pages. Finally, a system model is established by using the idea of this paper to prove the usability of this idea.
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【参考文献】

相关期刊论文 前4条

1 完谨裕;周勇;;企业信誉管理的多维度理解[J];滁州学院学报;2007年04期

2 刘雁书,方平;Web网站站外链接类型与特征调查——链接分析法可行性研究[J];大学图书馆学报;2001年05期

3 张海涛,刘甲学,宋川;超文本系统信息结构组成元素—链的分析[J];情报科学;2002年04期

4 宋琦;薛建武;;智能检索系统中用户兴趣模型构建技术研究[J];情报杂志;2007年01期

相关硕士学位论文 前10条

1 高岩;朴素贝叶斯分类器的改进研究[D];华南理工大学;2011年

2 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年

3 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年

4 徐法艳;基于Web挖掘技术的网页分类研究[D];扬州大学;2008年

5 高珊;信息检索中的查询扩展及相关技术研究[D];华中师范大学;2008年

6 刘军;基于Web结构挖掘的HITS算法研究[D];中南大学;2008年

7 汪洋;网络营销在测量仪器仪表行业的应用研究[D];复旦大学;2009年

8 罗江锋;一种抑制恶意网页的web权威结点挖掘算法研究[D];国防科学技术大学;2008年

9 龚畅;基于web挖掘技术的网页分类研究[D];江南大学;2009年

10 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年



本文编号:1671753

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1671753.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27265***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com