当前位置:主页 > 科技论文 > 搜索引擎论文 >

维、哈文不良网页判别方法研究

发布时间:2018-10-09 18:39
【摘要】:随着信息技术的飞速发展,互联网已成为人们快速发布信息和获取信息的重要工具。近年来,维吾尔文、哈萨克文网站数量有了快速增长,具不完全统计,国内维哈文网站目前有两千多个,且在不断增加中。民族语言网站在为广大少数民族用户提供丰富多彩本民族文化信息的同时,部分不法之徒利用互联网传播反动、煽动性言论等不良信息,此类信息严重歪曲我党方针政策,扭曲事实真相,极易引起公众的不理性判断,对社会和谐稳定带来巨大隐患。如何对此类信息进行有效监控、过滤成为政府部门关心的问题,维哈文不良网页识别技术也成为科研单位研究热点。 笔者首先设计了维哈文网站识别模型,并利用搜索引擎技术对互联网维哈文网站进行搜寻和数据采集,同时对维哈文不良网页识别模型中涉及的以下技术进行了研究:维哈文网页正文内容抽取方法、维哈文分词技术、特征词提取方法,文本分类算法,分类器性能评价指标。 本文在对维哈文不良网页特征分析基础上,利用卡方检验方法对训练集进行特征词抽取。为检测不同文本分类算法对维哈文不良网页识别模型判别性能的影响,笔者分别研究了支持向量机、K临近、朴素贝叶斯等文本分类算法,并根据多元线性回归原理,设计了多元线性回归模型。本文分别对这四类方法进行了测试对比,测试结果表明,当文本采用带权重特征向量表示,且支持向量机采用径向基核函数时,利用该算法设计的维哈文不良网页识别模型识别准确率和召回率能达到95%以上,且识别性能稳定,识别效率也相对较高,在实际应用中,该算法也取得了很好的识别效果。
[Abstract]:With the rapid development of information technology, the Internet has become an important tool for people to publish and obtain information quickly. In recent years, the number of Uygur and Kazakh websites has a rapid growth, with incomplete statistics. While providing the vast majority of ethnic minority users with rich and colorful information on their own culture, some lawless people use the Internet to disseminate undesirable information, such as reactionary and inflammatory remarks, which seriously distort our party's principles and policies. Distorting the truth easily leads to irrational judgment of the public and brings great hidden danger to social harmony and stability. How to effectively monitor and filter this kind of information has become a concern of government departments, and the technology of identifying bad web pages has also become a hot research topic in scientific research institutions. First of all, the author designs the identification model of Weihawen website, and makes use of the search engine technology to search and collect the data of the Web site. At the same time, the following technologies are studied in the model: the text content extraction method, the word segmentation technology, the feature word extraction method, the text classification algorithm and the performance evaluation index of the classifier. Based on the analysis of the features of the bad pages of Weihawen, the chi-square test method is used to extract the feature words from the training set. In order to detect the influence of different text classification algorithms on the discriminant performance of the bad page recognition model, the support vector machine (SVM) and naive Bayes text classification algorithms are studied respectively, and according to the principle of multiple linear regression, the text classification algorithms such as support vector machine (SVM) and naive Bayes are studied. A multivariate linear regression model is designed. The test results show that when the text is represented by weighted eigenvector and the support vector machine adopts radial basis kernel function, The recognition accuracy and recall rate of this algorithm can reach more than 95%, and the recognition performance is stable and the recognition efficiency is relatively high. In practical application, the algorithm has achieved a good recognition effect.
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 董忠,尤良方;用Java实现网页新闻的自动更换[J];天水师范学院学报;2002年02期

2 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期

3 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期

4 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期

5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期

6 张建莉;;基于特征词驱动的带“的”字名词短语的识别[J];福建电脑;2006年05期

7 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期

8 刘茵;;一种基于词组的用户建模技术[J];信息与电脑(理论版);2010年07期

9 王珏,刘三阳,张杰;基于广义粗糙近似的信息检索方法研究[J];系统工程与电子技术;2004年12期

10 王宏生;张琳;;基于本体的文本自动分类[J];科技信息(学术研究);2008年29期

相关会议论文 前10条

1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年

2 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年

5 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

6 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

7 吴云芳;;并列结构的外部句法特征[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年

8 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年

9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

相关重要报纸文章 前10条

1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年

2 wally;给你的电脑找个“机器佣人”[N];中国计算机报;2004年

3 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年

4 咕咚;Blog: 从技术出发[N];计算机世界;2003年

5 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年

6 林俊铭;漳州地名用字解析[N];闽南日报;2008年

7 云南 张康宗;安全至上[N];电脑报;2003年

8 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年

9 卢伟;文学语言的语料库研究方法[N];文艺报;2004年

10 记者 郑维富;父子著书解密温州方言[N];浙江日报;2004年

相关博士学位论文 前10条

1 温昌衍;客家方言特征词研究[D];暨南大学;2001年

2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年

3 符其武;琼北闽语词汇研究[D];厦门大学;2007年

4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年

5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年

6 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年

7 王进;《元曲选》祈使句研究[D];华中科技大学;2008年

8 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年

9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

10 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年

2 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年

3 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年

4 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年

5 刘林浩;网络热点新闻事件挖掘和跟踪分析方法的研究与实现[D];中南大学;2010年

6 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年

7 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年

8 龚穗丰;南昌话特征词研究[D];苏州大学;2005年

9 李佳;中国古典诗词英译中文化特征词的翻译[D];曲阜师范大学;2012年

10 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年



本文编号:2260371

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2260371.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d482c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com