基于改进后缀树算法中英文聚类引擎的实现
【图文】:
类方法是以递归算法为基础并有固定的聚类阈值,需要大量的时间和空间[5]. STC算法的优点是利用短语不仅可以发现类,还可以描述类.后缀树算法作为一种新的、增量式的线性时间运算方法,生成的数据结构非常紧凑,节约了大量的存储空间.文献[6]给出了详细的建树过程.图1为与字符串“ABDCABCD”对应的后缀树结构.图1 后缀树结构Fig. 1 Structure of suffix tree由图1可见,传统的后缀树结构采用边作为存储单位,而在程序实现中树结构仍是以节点形式存在,这种结构没有充分发挥节点的灵活性.同时,由于传统后缀树采用无序的插入方法,使建立后缀树和读取类标识都必须进行完全深度遍历[7],当数据量增大时,耗时会线性增加.中文以单个汉字为单位的建树方法比英文以词为单位占用时间和空间要大得多
层次化的后缀树结构是在传统后缀树的基础上,将字符串Sn从边上提取出放到叶节点上,每个节点作为一个存储单元,同时引入排序方法插入节点,使建树和读树的过程实现分层处理.当一个节点不符合要求时,就不对它的子节点进行深度遍历,从而减少不必要的时间开支.节点结构如图2所示.图2 节点的结构Fig. 2 Structure of nodes节点标签用于存储该节点存储的字符串内容;兄弟指针指向同一层中的下个节点;子节点指针指向该节点的第一个子节点,而第二个节点由第一个节点的兄弟指针链接;文档索引标签是一个可变长的数组,用于存储该节点的字符串短语在哪些结果文档中存在.在层次化后缀树结构中,改进了节点的同层次排序,在建树过程中,每次从根节点出发,当在第一层找到新节点的排序位置在两个现存节点间并且没有相同部分时,将节点直接插入到两节点之间.否则
【作者单位】: 吉林大学计算机科学与技术学院;吉林大学通讯工程学院;
【基金】:吉林省科技发展计划项目基金(批准号:20070533)
【分类号】:TP311.13
【共引文献】
相关期刊论文 前4条
1 陈次白,林磊;动态专家评估排序技术[J];情报杂志;2005年04期
2 陈晶;元搜索引擎实现技术[J];情报杂志;2005年05期
3 刘丽;元搜索引擎结果显示方式研究[J];情报杂志;2005年06期
4 王敏,杨炳儒;基于主题的个性化元搜索引擎的设计与实现[J];情报杂志;2005年07期
相关博士学位论文 前1条
1 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
相关硕士学位论文 前10条
1 鲍宗泛;广域网数据库查询系统的研究与开发[D];浙江大学;2004年
2 吕传宇;答疑系统中专题式智能型元搜索引擎的研究[D];重庆大学;2004年
3 洪颖;面向化工领域的智能元搜索引擎系统的研究与设计[D];北京化工大学;2004年
4 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
5 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
6 樊康新;基于服务器端的个性化元搜索引擎的研究与设计[D];苏州大学;2005年
7 魏振达;基于服务的元搜索引擎研究[D];南华大学;2006年
8 尹西杰;基于智能Agent的Web个性化信息检索系统[D];山东大学;2006年
9 李信利;基于信息类别的元搜索引擎研究[D];山东大学;2006年
10 霍长青;个性化元搜索引擎研究与设计[D];山东科技大学;2006年
【相似文献】
相关期刊论文 前10条
1 曾本胜,,廉玉忠,李世取;后缀树的平均高度[J];运筹与管理;1996年04期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 周水庚,关佶红,胡运发;基于文档实例的中文信息检索[J];计算机工程与应用;2000年10期
4 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
5 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
6 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
7 林鸿飞,杨元生;用户兴趣模型的表示和更新机制[J];计算机研究与发展;2002年07期
8 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期
9 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
10 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
相关会议论文 前9条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 邱立坤;程葳;龙志yN;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
5 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
6 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
相关重要报纸文章 前2条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
相关博士学位论文 前6条
1 戈鹏;敏捷化CAPP系统原理、关键技术与应用实践[D];四川大学;2003年
2 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
3 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
4 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
相关硕士学位论文 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
3 刘恒;程序中重复代码的自动检测[D];大连理工大学;2003年
4 刘立平;一种中文文本聚类方法的研究[D];湘潭大学;2003年
5 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
6 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
7 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
8 李建祥;智能网页推荐系统的相关技术研究[D];西南交通大学;2004年
9 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
10 袁磊;基于概率模型的文本聚类[D];吉林大学;2005年
本文编号:2525626
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2525626.html