当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于改进的权值调整技术数据源分类算法研究

发布时间:2018-04-13 02:02

  本文选题:Web数据库 + 特征提取 ; 参考:《计算机应用研究》2012年03期


【摘要】:针对传统的搜索引擎无法正确搜索到Deep Web中隐藏的海量信息,对Web数据库的分类是通向Web数据库分类集成和检索的关键步骤。提出了一种基于权值调整技术的Deep Web数据库分类方法,首先从网页表单中提取特征;然后对这些特征使用一种新的权重计算方法进行估值;最后利用朴素贝叶斯分类器对Web数据库进行分类。实验表明,这种分类方法经过少量样本训练后,就能达到很好的分类效果,并且随着训练样本的增加,该分类器的性能保持稳定,准确率、召回率都在很小的范围内波动。
[Abstract]:Because the traditional search engine can not search the huge amount of information hidden in Deep Web correctly, the classification of Web database is the key step to the classification integration and retrieval of Web database.This paper presents a classification method of Deep Web database based on weight adjustment technique, which firstly extracts features from web pages, and then uses a new weight calculation method to estimate these features.Finally, the naive Bayes classifier is used to classify the Web database.Experiments show that the classification method can achieve a good classification effect after a small number of samples training, and with the increase of training samples, the performance of the classifier remains stable, the accuracy and recall rate fluctuate in a very small range.
【作者单位】: 西华师范大学计算中心;
【基金】:四川省教育厅自然科学科研基金资助项目(10ZC016) 西华师范大学科研项目(JGXM0950)
【分类号】:TP311.13

【参考文献】

相关期刊论文 前3条

1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期

2 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期

3 鲁明羽,李凡,庞淑英,陆玉昌,周立柱;基于权值调整的文本分类改进方法[J];清华大学学报(自然科学版);2003年04期

【共引文献】

相关期刊论文 前9条

1 鲁明羽,张红,付克明,陆玉昌;Web ME——一个大型网络挖掘环境系统[J];哈尔滨工业大学学报;2004年09期

2 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期

3 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期

4 贾宁;;使用概念基元特征进行自动文本分类[J];计算机工程与应用;2007年01期

5 鲁明羽;;Bayes文本分类器的改进方法研究[J];计算机工程;2006年17期

6 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期

7 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[J];中文信息学报;2007年01期

8 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期

9 钱晶;张杰;张涛;;基于最大熵的汉语人名地名识别方法研究[J];小型微型计算机系统;2006年09期

相关会议论文 前1条

1 鲁明羽;孙建涛;陆玉昌;;一种基于联想的网页推荐方法[A];第五届全球智能控制与自动化大会会议论文集(4)[C];2004年

相关博士学位论文 前5条

1 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年

2 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年

3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年

5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

相关硕士学位论文 前10条

1 吴志峰;基于概念特征的中文文本分类研究[D];河北大学;2005年

2 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年

3 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年

4 王金宝;基于增量学习和阀值优化的自适应信息过滤[D];大连理工大学;2006年

5 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年

6 孙国欣;基于主动学习的中文文本分类[D];兰州大学;2006年

7 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年

8 曲晓;受限条件下学生作业文本相似度的研究[D];内蒙古师范大学;2006年

9 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年

10 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年

【二级参考文献】

相关期刊论文 前2条

1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期

2 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期

【相似文献】

相关期刊论文 前10条

1 吴春辉;陈洪生;;基于内容的音频检索技术研究[J];咸宁学院学报;2011年06期

2 余光华;;基于WEB的数据库访问技术的研究[J];湛江师范学院学报;2011年03期

3 刘劲;陈瑛琦;扶晓;;虹膜特性提取阶段的小波多尺度特征量化算法[J];电脑编程技巧与维护;2011年14期

4 陈克坦;;基于属性相关度的WEB数据库估算方法[J];硅谷;2011年12期

5 林雅静;;Jsp访问Web数据库[J];青春岁月;2011年12期

6 贾志先;;基于支持向量机的空白试卷识别方法[J];山西大学学报(自然科学版);2011年03期

7 刘劲;赵蕾;扶晓;;基于小波模极值的虹膜特征提取算法[J];电脑编程技巧与维护;2011年16期

8 蒋强荣;高远;张鸿宾;;基于直方图交核的人脸识别[J];北京工业大学学报;2011年08期

9 黑光月;;基于方向平面特征的脱机女书识别方法研究[J];电脑知识与技术;2011年25期

10 杨颖娴;;改进ICA的人脸特征提取方法[J];长江大学学报(自然科学版);2011年05期

相关会议论文 前10条

1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

2 陈毓玲;方志祥;李必军;;一种激光扫描测量用于三维重建的方法研究[A];广东省测绘学会第八次会员代表大会学术交流论文集[C];2005年

3 饶俊;;基于金字塔配准和特征提取插值的超分辨率重建[A];第十四届全国图象图形学学术会议论文集[C];2008年

4 陈兴峰;顾行发;李紫薇;余涛;郑进军;郭丁;;基于“净化边界的傅立叶描述子”图像形状特征提取[A];第十四届全国图象图形学学术会议论文集[C];2008年

5 张浩;刘志镜;;基于动态时间规整的步态自动识别[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年

6 王艳丰;李钢虎;林关成;;水下目标特征的分形维提取算法改进[A];2009年中国东西部声学学术交流会论文集[C];2009年

7 蔡蕾;朱永生;;基于稀疏性非负矩阵分解和支持向量机的轴心轨迹图识别[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年

8 索芳;魏世泽;;农田杂草图像特征提取与识别方法的探讨[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

9 周书仁;梁昔明;朱灿;;一种优化的ICA表情特征提取方法[A];第二十六届中国控制会议论文集[C];2007年

10 李勇智;杨静宇;毛洪贲;;基于局部和非局部散度理论的一种新的特征提取方法[A];第二十七届中国控制会议论文集[C];2008年

相关重要报纸文章 前10条

1 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年

2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年

3 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年

4 上海 高博;让电脑“听懂”人话[N];电脑报;2008年

5 方忠诚;OCR技术及其应用[N];北京电子报;2000年

6 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年

7 陈丽梅;一指“走”天下[N];光明日报;2000年

8 成成;指纹识别 正走入我们的生活[N];山西科技报;2000年

9 黄培;企业的生产经营与信息系统[N];中国机电日报;2000年

10 ;视频数据中挖“宝”[N];计算机世界;2002年

相关博士学位论文 前10条

1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年

2 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年

3 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年

4 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年

5 权胜赫;基于形状特征三维模型检索的一些关键技术实现研究[D];吉林大学;2007年

6 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年

7 赵武锋;人脸识别中特征提取方法的研究[D];浙江大学;2009年

8 李宁;基于视觉认知的人体行为特征提取模型研究[D];北京交通大学;2010年

9 林玉娥;特征提取方法研究及其在人脸识别中的应用[D];哈尔滨工程大学;2009年

10 张志伟;面向产品文件的特征提取与建模研究[D];天津大学;2009年

相关硕士学位论文 前10条

1 钟春芳;基于多Web数据库数据集成的自动浏览技术研究[D];福州大学;2001年

2 吴云周;Linux下Web数据库技术的应用研究[D];华侨大学;2002年

3 向仕建;基于电子商务环境下的Web数据库存取技术的研究[D];北方工业大学;2003年

4 文兴斌;基于Internet的网络财务系统开发[D];四川大学;2005年

5 赵晓辉;基于B/S结构的科技管理信息系统的研究[D];北京工业大学;2000年

6 邓大伟;数据库系统开发与数据挖掘技术[D];西南石油学院;2002年

7 何晓桃;Web数据库系统的研究和实践[D];广东工业大学;2002年

8 郑秀芬;WEB数据库和数据仓库技术的研究与应用[D];浙江大学;2004年

9 赵冬;Web数据库在电力推进船舶中的应用[D];大连海事大学;2006年

10 李晓辉;CD-400CG型ICT系统配套数据库设计与开发[D];重庆大学;2003年



本文编号:1742414

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1742414.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c92b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com