维、哈文不良网页判别方法研究
[Abstract]:With the rapid development of information technology, the Internet has become an important tool for people to publish and obtain information quickly. In recent years, the number of Uygur and Kazakh websites has a rapid growth, with incomplete statistics. While providing the vast majority of ethnic minority users with rich and colorful information on their own culture, some lawless people use the Internet to disseminate undesirable information, such as reactionary and inflammatory remarks, which seriously distort our party's principles and policies. Distorting the truth easily leads to irrational judgment of the public and brings great hidden danger to social harmony and stability. How to effectively monitor and filter this kind of information has become a concern of government departments, and the technology of identifying bad web pages has also become a hot research topic in scientific research institutions. First of all, the author designs the identification model of Weihawen website, and makes use of the search engine technology to search and collect the data of the Web site. At the same time, the following technologies are studied in the model: the text content extraction method, the word segmentation technology, the feature word extraction method, the text classification algorithm and the performance evaluation index of the classifier. Based on the analysis of the features of the bad pages of Weihawen, the chi-square test method is used to extract the feature words from the training set. In order to detect the influence of different text classification algorithms on the discriminant performance of the bad page recognition model, the support vector machine (SVM) and naive Bayes text classification algorithms are studied respectively, and according to the principle of multiple linear regression, the text classification algorithms such as support vector machine (SVM) and naive Bayes are studied. A multivariate linear regression model is designed. The test results show that when the text is represented by weighted eigenvector and the support vector machine adopts radial basis kernel function, The recognition accuracy and recall rate of this algorithm can reach more than 95%, and the recognition performance is stable and the recognition efficiency is relatively high. In practical application, the algorithm has achieved a good recognition effect.
【学位授予单位】:新疆农业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 董忠,尤良方;用Java实现网页新闻的自动更换[J];天水师范学院学报;2002年02期
2 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期
3 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
4 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
6 张建莉;;基于特征词驱动的带“的”字名词短语的识别[J];福建电脑;2006年05期
7 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
8 刘茵;;一种基于词组的用户建模技术[J];信息与电脑(理论版);2010年07期
9 王珏,刘三阳,张杰;基于广义粗糙近似的信息检索方法研究[J];系统工程与电子技术;2004年12期
10 王宏生;张琳;;基于本体的文本自动分类[J];科技信息(学术研究);2008年29期
相关会议论文 前10条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
5 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 吴云芳;;并列结构的外部句法特征[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
相关重要报纸文章 前10条
1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
2 wally;给你的电脑找个“机器佣人”[N];中国计算机报;2004年
3 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
4 咕咚;Blog: 从技术出发[N];计算机世界;2003年
5 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
6 林俊铭;漳州地名用字解析[N];闽南日报;2008年
7 云南 张康宗;安全至上[N];电脑报;2003年
8 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年
9 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
10 记者 郑维富;父子著书解密温州方言[N];浙江日报;2004年
相关博士学位论文 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 符其武;琼北闽语词汇研究[D];厦门大学;2007年
4 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
5 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
6 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
7 王进;《元曲选》祈使句研究[D];华中科技大学;2008年
8 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
相关硕士学位论文 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
3 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
4 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
5 刘林浩;网络热点新闻事件挖掘和跟踪分析方法的研究与实现[D];中南大学;2010年
6 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
7 唐俊;复杂网络在网络新闻信息处理中的应用研究[D];西南交通大学;2012年
8 龚穗丰;南昌话特征词研究[D];苏州大学;2005年
9 李佳;中国古典诗词英译中文化特征词的翻译[D];曲阜师范大学;2012年
10 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年
,本文编号:2260371
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2260371.html