针对小文本的Web数据挖掘技术及其应用
本文选题:智能搜索 + Web数据挖掘 ; 参考:《微计算机信息》2006年21期
【摘要】:现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。
[Abstract]:The existing search engine technology returns too much information to the user, so a Web text mining technology based on approximate web page clustering algorithm for small text is proposed, which forms a vocabulary base according to the user's interest. Fuzzy clustering method is used to obtain word segmentation dictionary group, MD5 algorithm is used to remove duplicate pages, approximate page clustering algorithm is used to cluster the remaining pages, and Markov Web sequence mining algorithm is used to sort the clustering results. Thus, the user can find the interested pages quickly by providing the sequence of interested web pages. Experiments show that the algorithm greatly improves the search efficiency on the basis of guaranteeing recall and precision. Due to the small text data mining, the algorithm is not high in time and space complexity, so it is expected to become a practical and effective information retrieval technology.
【作者单位】: 湖南大学电气与信息工程学院 长沙理工大学电气与信息工程学院
【基金】:国家自然科学基金项目(60375001) 教育部博士点基金资助项目(20030532004)
【分类号】:TP311.13
【共引文献】
相关期刊论文 前10条
1 焦军彩;韩正忠;;高校综合实力的模糊综合评估与聚类分析研究[J];中国高等教育评估;2004年02期
2 刘章军;叶燎原;;模糊概率模型及其在地下水水质评价中的应用[J];应用基础与工程科学学报;2007年03期
3 陈晓军;郭金茂;;基于AHP模糊综合评判的军工电子产品质量评价研究[J];装甲兵工程学院学报;2005年04期
4 湛毅青;高校财务绩效的模糊综合评判[J];中南工业大学学报(社会科学版);2001年04期
5 王燕;安徽省节水农业分区初步研究[J];中国农村水利水电;2001年07期
6 朱浩;科学研究中事物模糊性的哲学意蕴[J];自然辩证法研究;2002年10期
7 刘章军,叶燎原;基于模糊概率的震害预测模型及其应用[J];自然灾害学报;2005年04期
8 翟光群,张玉凤;烧碱浓度Fuzzy检测中隶属函数的确定[J];郑州工业大学学报;2001年04期
9 胡忠日,孙迎霞,方正;高层建筑火灾危险性模糊综合评估初探[J];消防科学与技术;2003年05期
10 高明,马生全;基于模糊可信度的综合评判方法[J];西北民族大学学报(自然科学版);2004年03期
相关会议论文 前10条
1 丁曙;;运用模糊综合评价法评价体育新课标下学生学习的初探[A];浙江省体育科学学会学校体育专业委员会第十一届论文报告会论文集[C];2008年
2 郝艳红;王灵梅;;生态型火电厂评价指标体系研究[A];第二届全国循环经济与生态工业学术研讨会暨中国生态经济学会工业生态经济与技术专业委员会2007年年会论文集[C];2007年
3 杨红玲;吴建军;;应用模糊综合法评析企业财务结构状况[A];中国会计学会高等工科院校分会2005年学术年会暨第十二届年会论文集[C];2005年
4 刘电霆;周德俭;余强;;虚拟企业中细粒度协同设计任务的不确定调度及GA求解[A];先进制造技术高层论坛暨第六届制造业自动化与信息化技术研讨会论文集[C];2007年
5 刘章军;叶燎原;;岩体稳定性评价的模糊概率方法[A];第一届中国水利水电岩土力学与工程学术讨论会论文集(上册)[C];2006年
6 成曙;姚良;张振仁;;基于小波包分解和模糊C均值聚类的柴油机气阀机构故障诊断[A];设备监测与诊断技术及其应用——第十二届全国设备监测与诊断学术会议论文集[C];2005年
7 杨建宁;成立;;基于模糊模式识别的模块选择算法设计和应用[A];2005亚洲国际过程自动化技术与装备展览会论文集[C];2005年
8 孙烈英;;模糊控制过程中参数自调整的方法[A];1995中国控制与决策学术年会论文集[C];1995年
9 戴祯平;;贵州省县级供电企业综合能力模糊评判应用[A];贵州省软科学研究论文选编(2001—2004)[C];2005年
10 宋杰鲲;张宇;张在旭;;基于模糊集和粗糙集理论的企业财务危机预警系统[A];第四届中国不确定系统年会论文集[C];2006年
相关博士学位论文 前10条
1 祖巧红;基于实例的OLAM技术及其多维可视化研究[D];武汉理工大学;2007年
2 邓铁军;结构工程施工系统可靠性理论方法及其应用的研究[D];湖南大学;2007年
3 周豪;区域高新技术产业化系统的分析与评价[D];哈尔滨工程大学;2007年
4 周豪;区域高新技术产业化系统的分析与评价[D];哈尔滨工程大学;2007年
5 秦焱;吉林省黑土肥力质量评价及结构退化机理研究[D];吉林大学;2007年
6 张雷;大规模定制模式下产品绿色设计方法研究[D];合肥工业大学;2007年
7 高铭;抗菌涤/锦复合超细纤维的制备及性能研究[D];青岛大学;2007年
8 王刚;电力系统多控制中心之间分解协调暂态稳定仿真计算的研究[D];清华大学;2006年
9 王锋;舰载多功能火箭炮系统分析与研究[D];南京理工大学;2007年
10 谢杰;应用模糊数学方法对绝经后骨质疏松症的证型研究[D];广州中医药大学;2007年
相关硕士学位论文 前10条
1 周群谊;客户关系管理在货运代理行业的应用与研究[D];上海交通大学;2008年
2 张荣雨;基于安全监测的海塘综合评判隶属度和权值的研究[D];上海交通大学;2008年
3 黄柱中;基于多数据源信息融合的安全审计研究[D];西南交通大学;2007年
4 李龙;铁路客运站服务设施及其水平的适应性研究[D];西南交通大学;2007年
5 袁辉;基于客户价值分析的服务挖掘[D];武汉理工大学;2007年
6 李锦红;复杂产品协同开发过程中的协作关系分析[D];武汉理工大学;2007年
7 彭秋霞;粗糙集理论在区间数模糊综合评判中的应用研究[D];西南交通大学;2007年
8 史磊;基于用户兴趣和模糊性的P2P信任机制研究[D];大连理工大学;2008年
9 张松;电力产业监管政策绩效评估[D];东北财经大学;2007年
10 孙晶;南瓜复合果蔬汁制作工艺及其悬浮稳定性研究[D];南京农业大学;2007年
【相似文献】
相关期刊论文 前10条
1 戴学东,吕勇哉;一种基于人工智能搜索的生产调度策略[J];信息与控制;1987年02期
2 袁宏永;粗差智能搜索控制网局部形亏问题处理及优化设计[J];合肥工业大学学报(自然科学版);1991年01期
3 强学军;郭雷;;利用神经网络解决智能搜索问题[J];西安电子科技大学学报;1992年04期
4 陆伟民;基于面向对象的神经网络搜索模拟[J];计算机辅助工程;1995年01期
5 蔡晓东,王晓东,孟庆鑫;用于水下缆桩目标搜索的演示实验系统[J];传感器技术;1997年04期
6 ;智能搜索——WebSleuth给Web查找加入了语言分析功能[J];每周电脑报;1997年32期
7 李俊国;网络加油战(六)[J];电脑;1998年10期
8 杨兆升,姜桂艳,,温慧敏;流体神经网络在非规范条件下的应用研究[J];系统工程理论与实践;1999年08期
9 张祖勋;创新需要超前 创新需要投入 创新要敢于否定[J];测绘信息与工程;1999年04期
10 晏俊德,李雪莲,胡庆伦;基于个人定制的智能搜索助手的研究[J];沈阳工业大学学报;2000年01期
相关会议论文 前8条
1 李加祥;胡凌美;;对规避目标搜索的智能决策分析模型[A];1999中国控制与决策学术年会论文集[C];1999年
2 ;HOW TO REBUILD ANC PROGRAM ON THE BASIS OF DNC SYSTEM[A];第一届国际机械工程学术会议论文集[C];2000年
3 李杜;王行愚;;基于Mobile Agent技术的第三方物流平台研究[A];2003中国控制与决策学术年会论文集[C];2003年
4 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 万英;蒋梁中;翟敬梅;;虚拟数据库与WEB数据挖掘[A];首届泛珠三角先进制造技术论坛暨第八届粤港机电工程技术与应用研讨会论文专辑[C];2004年
6 赵宇;张洪华;;卫星轨道规划的一种智能混合优化算法[A];全国第十二届空间及运动体控制技术学术会议论文集[C];2006年
7 杨娜;付强;贺延国;;蚁群算法在水土资源中的应用研究进展[A];农业系统工程理论与实践研究——全国农业系统工程学术研讨会论文集[C];2006年
8 王雪萍;杨青;黄祖锋;;P2P网络中基于蚁群算法的智能搜索研究[A];2006全国复杂网络学术会议论文集[C];2006年
相关重要报纸文章 前10条
1 韩雪;硅谷动力推出新一代搜索引擎[N];解放日报;2000年
2 本报记者 蒋峥;智能搜索引擎:能否发动新一轮上网热[N];经济日报;2000年
3 ;从天马行空到脚踏实地[N];人民日报海外版;2000年
4 慧君;硅谷动力正式推出新一代搜索引擎[N];上海科技报;2000年
5 ;东方般若推出基于互联网的企业信息构建平台[N];中国高新技术产业导报;2001年
6 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
7 王旭;中文智能搜索引擎[N];计算机世界;2001年
8 张红;国际资本看好中国网络实名制市场[N];国际商报;2002年
9 刘 伟 ;微软联手3721直面“用户体验”[N];经济参考报;2002年
10 宁川;慧聪新一代搜索引擎挑战Google[N];中国计算机报;2003年
相关硕士学位论文 前10条
1 刘树勋;Internet智能搜索Agent研究与实现[D];广东工业大学;2000年
2 商晓虎;智能搜索引擎技术在侦察工作中的实现[D];郑州大学;2001年
3 王家锋;分布式智能搜索引擎技术[D];北京工业大学;2003年
4 余媛芳;面向产品创新设计的知识获取研究[D];西北工业大学;2004年
5 凌海云;基于语义网的智能搜索技术的研究与实现[D];电子科技大学;2004年
6 韩婷;基于本体论的智能搜索引擎模型的研究[D];广西大学;2005年
7 王业昕;具有自然语言理解和信息挖掘能力的搜索引擎开发[D];华东师范大学;2006年
8 朱雪刚;基于语义网络的教学资源搜索引擎研究[D];东北师范大学;2006年
9 黄永欣;基于CIDOC CRM的语义查询系统的研究与实现[D];首都师范大学;2006年
10 孙明;面向技术贸易壁垒的智能搜索技术研究[D];北京工业大学;2006年
本文编号:1793731
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1793731.html