当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种高效的网页聚类方法

发布时间:2019-07-25 11:54
【摘要】:当前主流的搜索引擎主要是以与用户查询的相关度来顺序返回搜索结果的,用户往往需要花费较长的时间从结果列表中进行选择。为了解决这个问题,针对搜索引擎返回的标题和摘要信息,构造有向图表示,并在此基础上实现了一种高效的网页聚类原型系统(efficient web clustering system,EWCS)。该系统将搜索引擎返回的结果按照一定的标准分类呈现给用户,用户选择感兴趣的类别进行浏览,从而较好地满足了用户对查询速度和准确度的需求。试验结果表明该算法具有一定的可行性和较高的准确率。
【图文】:

一种高效的网页聚类方法


10 组关键字分别进行查询,对每个搜索结果截取前 700 条记录。经过统计试验分析,得到如下的平均聚类时间复杂度曲线如图 2 所示。图 2 清晰地显示了该算法的时间复杂度特征,我们的聚类时间随着记录条数的增加呈线性递增趋势。3 原型系统和测试基于本文提出的数据模型和聚类算法,实现了原型系统EWCS (efficient web clustering system)。该系统在 WindowsXP 平台上用 Java 语言实现,JRE 版本为 5.0。目前系统是建立在百度搜索引擎的基础上的元搜索引擎,它能够快速有效地对搜索引擎返回的结果进行聚类,并产生令人满意的聚类结果。图 3 展示了系统对查询关键字“胡戈”的聚类结果,其中包括“馒头血案”,“春运帝国”,“侵权”,“恶搞”等聚类结果。4 结束语本文尝试用新的网页聚类方法,大大的提高了网页聚类的速度

一种高效的网页聚类方法


立在百度搜索引擎的基础上的元搜索引擎,它能够快速有效地对搜索引擎返回的结果进行聚类,并产生令人满意的聚类结果。图 3 展示了系统对查询关键字“胡戈”的聚类结果,其中包括“馒头血案”,“春运帝国”,“侵权”,“恶搞”等聚类结果。4 结束语本文尝试用新的网页聚类方法,大大的提高了网页聚类的速度,并且聚类结果也比较令人满意。本文的主要贡献有:①提出了有向图模型来表示文档数据,从而有效地识别高频词语和进行聚类;②聚类算法避免了计算两两文档之间的相似度,从而大大提高了聚类效率。实现的原型系统说明了本文数据模型和聚类算法可以有效地捕捉查询主题的子主题,从而使用户更容易地发现他们感兴趣的信息,适用于对大量网页进行快速聚类。图 2 聚类时间复杂度
【作者单位】: 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院
【基金】:天津市科技发展计划基金项目(04310941R)
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 宋志平,李应红,屈裕安;大型有向图的三叉链表式存储结构[J];计算机工程与应用;2002年21期

2 李爱玲;;基于有向图的工作流模型的设计与实现[J];电子商务;2011年04期

3 杜林古;;有向图上最大权圈装箱问题的有效算法[J];青岛大学学报(工程技术版);1990年01期

4 侯荣涛,李自芹;二维变量化设计中的有向图理论[J];唐山高等专科学校学报;1999年04期

5 赵万生,王刚,姜洪臣,于达仁,迟关心;二维欠约束系统求解算法的研究[J];哈尔滨工业大学学报;2002年01期

6 左为平,刘云芳;有向图中路径矩阵的实现及其算法研究[J];洛阳师范学院学报;2004年05期

7 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期

8 周明元,曹中华;一种字符孔洞数的求法[J];计算机与现代化;2005年09期

9 王芳;徐玮;;数据结构在交通网络中的应用[J];电脑与电信;2007年04期

10 曹雁锋;张先伟;;一种强连通判定算法[J];计算机应用与软件;2007年04期

相关会议论文 前10条

1 周桂贤;谢庆生;;电子商务系统中网络挖掘的研究和应用(英文)[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年

2 师文清;叶晓俊;;基于查询日志挖掘的网页聚类研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

3 付宜利;谢龙;马玉林;田立中;;有向图理论在产品数字化装配中的应用研究[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年

4 赵华;陈英武;;基于自然连通度的武器装备体系生存能力评估方法[A];决策科学与评价——中国系统工程学会决策科学专业委员会第八届学术年会论文集[C];2009年

5 徐九韵;杨放春;郭乐深;;活锁类业务冲突的动态检测方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年

6 王记红;方清;王小丹;;基于组件思想的工作流调度设计[A];广东省通信学会2006年度学术论文集[C];2007年

7 杨华;孙常龙;赵明明;葛运东;姚建民;;基于网络的英文缩略语全称挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 郎君;秦兵;刘挺;李生;;中国人名性别自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年

9 盖晓东;杨世彦;杨威;黄军;;串联储能电源组快速均衡的系统结构分析[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年

10 陈仕兵;贾再一;;电力系统结线分析的图论方法[A];2000中国控制与决策学术年会论文集[C];2000年

相关重要报纸文章 前10条

1 徐海斌;网络信息搜索利器[N];中国电脑教育报;2003年

2 商报记者 金朝力;未来搜索将无处不在[N];北京商报;2011年

3 张有春;七匹狼将升级销售网络挖掘发展潜力[N];上海证券报;2007年

4 陕西 黄锦松;画个圈儿,,挖![N];电脑报;2004年

5 权莉 陈浩;“马克威”软件填补我国自主产权空白[N];中国贸易报;2006年

6 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

7 本报记者 张承东;挖潜无极限[N];网络世界;2006年

8 许琦敏;打造“中国牌数据铲”[N];文汇报;2006年

9 徐勇;IP语音通信实现真正融合[N];人民邮电;2003年

10 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年

相关博士学位论文 前10条

1 许英;关于图谱的若干研究[D];新疆大学;2010年

2 孔治国;电动客车用超级电容器组动态均衡技术研究[D];哈尔滨工业大学;2007年

3 张爱清;可扩展数据驱动并行算法研究及应用[D];中国工程物理研究院;2009年

4 王立中;亏群和块的结构[D];首都师范大学;2001年

5 颜云志;有向无标度图与二项随机图图因子[D];上海大学;2007年

6 卢俊杰;几何图论中的若干问题[D];上海交通大学;2009年

7 周佳立;双目立体视觉及三维反求研究[D];浙江大学;2009年

8 巢炎;基于公差约束的CAPP的关键技术研究[D];浙江大学;2006年

9 吴刚;RDF图数据管理的关键技术研究[D];清华大学;2008年

10 林琛;WEB环境下的社会网络挖掘研究[D];复旦大学;2009年

相关硕士学位论文 前10条

1 董学智;广义Kautz有向图GK(d,n)和折叠立方体FQ_n的反馈数[D];大连理工大学;2010年

2 黎世伟;供电生产MIS的数据流程分析方法[D];华北电力大学(北京);2004年

3 金光浩;有向图并行计算中的多目标剖分算法[D];中国工程物理研究院;2005年

4 郭晓辉;基于Exchange Server的办公自动化系统研究与开发[D];西安理工大学;2005年

5 江淑敏;图的扩张因子和转发指标[D];暨南大学;2005年

6 廖原原;基于图因子分解的几个问题[D];国防科学技术大学;2005年

7 胡强;基于约束有向图建模的工作流管理系统构建[D];山东大学;2005年

8 孟巍;有向图的点外弧泛圈性与一类梁振动系统的稳定性[D];山西大学;2004年

9 唐静;二部竞赛图中圈的研究[D];中北大学;2008年

10 彭波;非负循环矩阵的有向图结构[D];国防科学技术大学;2007年



本文编号:2519068

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2519068.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38be9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com