基于字频分布的中文网页编码识别研究
[Abstract]:With the rapid development of computer technology, the Internet has become an important way for people to share information. However, with the emergence of a large number of bad web pages, the situation of network security is becoming more and more serious, which has become the focus of attention. Web content filtering is an important research field in network security, and coding and recognition is a necessary prerequisite for web content filtering. Due to historical and regional reasons, there are many Chinese coding standards, and the coexistence of multiple Chinese codes brings inconvenience to the content filtering of Chinese web pages. Therefore, how to quickly and accurately identify the coding of web pages has become a hot topic. This paper introduces the features of Chinese coding such as GB code, large five code and Wanguo code, and studies the coding recognition algorithms such as Bayesian classification, Unigram and CodeFinder. The above algorithms can not eliminate the interference of ASCII codes in web pages, resulting in low recognition accuracy and time efficiency. In order to solve this problem, a Chinese page coding recognition algorithm based on word frequency distribution is proposed in this paper. According to the word frequency distribution of Chinese characters, FKI.FKI selects the characters with high frequency to form a high frequency character table. The high frequency character encoding is used as the key word to be searched in the web page to be identified, and the noise (such as ASCII code) is avoided. By comparing the matching number of different codes in the web page, the real code system of the web page to be identified is finally determined. The FKI algorithm selects high-frequency characters as keywords, and these keywords have a high utilization rate in Chinese web pages. The algorithm is suitable for almost all Chinese web page coding recognition. The AC algorithm is improved to fit the matching of Chinese high frequency character encoding in web pages. The improved AC algorithm constructs the reverse state automaton and searches keywords in bytes. When a byte mismatch occurs, the jump distance is calculated by using the byte corresponding to the "0" state as the mismatch byte. The jump distance of mismatch is increased, and the matching efficiency of Chinese coding is improved. Finally, the FKI algorithm, Unigram algorithm and CodeFinder algorithm are compared and tested. The experimental results show that compared with the above two algorithms, the FKI algorithm has higher accuracy and superior time efficiency, and is suitable for fast and accurate coding recognition of Chinese web pages with unknown coding system.
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 ;中文网页荟萃(一)[J];信息经济与技术;1997年03期
2 ;中文网页荟萃(二)[J];信息经济与技术;1997年04期
3 阳爱民,孙星明,胡运发,李长云;跨平台中文网页阅读系统[J];计算机工程;2002年12期
4 冯是聪,王继民;关于“中文网页自动分类竞赛”结果的分析[J];中文信息学报;2003年05期
5 孙瑶琴;;基于内容的中文网页自动分类系统[J];中国校外教育;2009年07期
6 杨俊峰;;一种中文网页消重算法的设计与实现[J];电子技术;2013年09期
7 王鹏;;ZDNet结识“人间烟火”[J];每周电脑报;1997年48期
8 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
9 ;要闻集锦[J];计算机与农业;1997年04期
10 ;资讯快递[J];航空港;2009年06期
相关会议论文 前1条
1 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关重要报纸文章 前8条
1 ;网上书屋介绍[N];光明日报;2000年
2 刘亭;在线保护你的系统[N];中国电脑教育报;2002年
3 天津 武金刚;豆仔热线[N];电脑报;2003年
4 奚东;网络语言的“狗化”现象[N];财经时报;2000年
5 本报记者 赵齐;慧聪今秋对决GOOGLE[N];国际商报;2003年
6 坦冰;图片搜索引擎“巨无霸”亮相中国[N];国际商报;2004年
7 记者 熊伟;慧聪搜索扬言要赶超Google[N];计算机世界;2003年
8 王哲邋汪秀芬;火狐登陆中国能否“红火”?[N];中国贸易报;2007年
相关硕士学位论文 前10条
1 邹加棋;中文网页自动分类关键技术研究[D];福州大学;2006年
2 陈文斐;基于形式概念分析的中文网页分类研究[D];西华大学;2011年
3 刘文琦;中文网页自动分类技术的研究与实现[D];哈尔滨工程大学;2007年
4 张浩;基于字频分布的中文网页编码识别研究[D];合肥工业大学;2014年
5 刘海春;基于朴素贝叶斯的中文网页分类技术研究与应用[D];华南理工大学;2012年
6 金一宁;基于KNN及相关链接的中文网页分类研究[D];哈尔滨工程大学;2008年
7 王绪峰;基于SVM的中文网页多类分类问题研究及实现[D];云南师范大学;2007年
8 张博;基于内容安全的中文网页过滤系统[D];西安电子科技大学;2006年
9 冯静;基于向量空间模型的中文网页自动分类技术研究[D];中国石油大学;2008年
10 葛永兴;基于贝叶斯算法和后向链接的中文网页组合分类研究[D];东北师范大学;2009年
,本文编号:2297947
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2297947.html