基于最大频繁项集的搜索引擎查询结果聚类算法
【图文】:
件状态基构造新的FP-Tree,递归地挖掘频繁项集,直到树中只包含一条路径,判断当前项集的支持度是否大于最小支持度。图2就是图1树中项“电影”的条件状态基以及生成的新的FP-Tree,下一步再计算“变形,电影”的条件状态基等等。详细挖掘过程请参考文献[17]。最大频繁项集的挖掘,要对挖掘出来的频繁项60
件状态基构造新的FP-Tree,递归地挖掘频繁项集,直到树中只包含一条路径,判断当前项集的支持度是否大于最小支持度。图2就是图1树中项“电影”的条件状态基以及生成的新的FP-Tree,下一步再计算“变形,电影”的条件状态基等等。详细挖掘过程请参考文献[17]。最大频繁项集的挖掘,要对挖掘出来的频繁项60
本文实验比较了基于全文的MFIC算法和K-Means算法,同时比较了基于摘要的后缀树聚类算法(STC)的聚类时间(图3)。由于STC对网页全文聚类时间太长(实验数据显示在10秒以上)不能用做在线聚类,在此不做详细展示。另外由于Lin-go算法使用的是开源的Java实验,其他算法是C++实现,这里没做比较。从图中看出MFIC聚类时间优于K-Means聚类的时间。由于MFIC聚类是基于网页全文,聚类时间长于基于摘要的STC在预料之中。实验结果表明MFIC聚类时间基本控制在2秒左右,可以满足在线聚类需要。为了进一步提高系统反应,在具体应用中可以通过设置聚类结果缓存,减少用户等待时间。图3 聚类算法时间对比6.3 聚类评测标准检索结果聚类系统的评价不同于一般的文本聚类评价
【相似文献】
相关期刊论文 前10条
1 ;《计算机应用》征订启事[J];计算机应用;2011年09期
2 ;《计算机应用》征订启事[J];计算机工程与应用;2011年23期
3 王华;;计算机应用对个人社会化的影响[J];社科与经济信息;2000年05期
4 ;投稿须知[J];计算机应用与软件;2011年09期
5 ;投稿须知[J];计算机应用与软件;2011年08期
6 陆倩;程玉凯;;基于VC的学生教务信息管理系统的设计[J];软件;2011年05期
7 崔剑;;软件模拟在计算机应用中的发展变革[J];硅谷;2011年16期
8 张育人;;软件工程学在计算机专业毕业设计中的运用[J];产业与科技论坛;2011年07期
9 孙恺;徐晓刚;;基于WorldWind平台的卫星云图模拟技术研究[J];科学技术与工程;2011年22期
10 王建华;劳金越;;计算机在质检管理工作中的应用[J];中国高新技术企业;2011年19期
相关会议论文 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 唐西隆;;用ToolBook制作多媒体课件的技巧[A];第十五届全国图学教育研讨会暨第七届工程制图CAI课件演示交流会论文集[C];2006年
6 满正行;李应兴;单广荣;于洪志;;网络应用中实现藏文支持的一种方案[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 赵晓波;;基于即时通信的客户服务系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 朱新河;严新平;萧汉梁;;计算机辅助油液监测数据处理系统[A];第二届全国青年摩擦学学术会议论文专辑[C];1993年
10 彭朝林;;急诊分诊处的计算机应用[A];全国护理临床研究学术交流暨专题讲座会议论文会编[C];2001年
相关重要报纸文章 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲邋通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 撰文 西南证券;计算机应用服务业,随大势而动[N];上海金融报;2008年
7 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
9 兰文科;浅析计算机应用系统平台建设[N];中国国门时报;2007年
10 ;教育 “一个孩子都不能少”[N];中国电脑教育报;2007年
相关博士学位论文 前9条
1 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
2 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
3 Memon Abdul Ghafoor;[D];浙江大学;2006年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
7 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
8 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
9 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
6 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
7 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
8 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
9 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
10 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
本文编号:2801544
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2801544.html