当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中基于密度聚类的混合编码检测算法

发布时间:2018-10-31 19:31
【摘要】:搜索引擎有很多的关键技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领域的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测。实验结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100%,可以广泛应用于搜索领域。
[Abstract]:There are many key technologies in search engine. This paper mainly focuses on the Chinese HTML mixed coding files on the Internet, studies the character encoding structure of Chinese HTML files, and then clusters the contents of the mixed encoding files. The classical algorithm of data mining, DBSCAN, is used to divide the HTML files into several classes, and then each class is detected based on feature encoding. The experimental results show that when the appropriate parameters are selected, the matching rate of each class with Chinese character feature coding is 100, which can be widely used in the search field.
【作者单位】: 浙江大学计算机科学与技术学院;中国人民解放军南京军区73610部队;
【基金】:国家支撑计划(2008BAH21B03)基金项目 浙江省公益性技术应用研究计划(2010C31003)基金项目
【分类号】:TP391.3

【参考文献】

相关期刊论文 前3条

1 李继锋,刘群;基于N-Gram模型的高速汉字编码识别系统[J];计算机工程与应用;2004年03期

2 辛春生,孙玉芳;简繁汉字转换系统的设计与实现[J];软件学报;2000年11期

3 王鑫;王洪国;王s,

本文编号:2303317


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2303317.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户743e1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com