利用标签的层次化搜索结果聚类方法
【图文】:
wi必须与w属于同一个句子且句子之间的距离不超过阈值d(d>0),这样可以得到一个共现的词对,记作〈w,wi〉.由此,可以得到如图1所示的结果.凡是在同一个句子中与w在距离d中共现的词wi都将记录下来,包括每个相对位置上的出现次数pji(-d≤j≤d,j≠0)、共现的总次数fi以及w与wi共现的所有句子ID(存储在senIds中)等.图1 针对词w搜集的词共现信息(2)过滤词对,提取有效2元组.为了判断〈w,wi〉是否为一个频繁2元组,定义了词对强度s =f--fσ式中-f =1n∑1≤i≤nfij σ=∑1≤i≤n(fi--f)n1/2 s显现了一个词对的共现频度,适于不同词对之间的比较,可用来过滤共现频度不高的词对.定义阈值β0
t2=0·8.2·2 实验结果图2显示了Vivisimo、Lingo、STC和本文算法的平均NMI结果.从中看到,本文算法在NMI(K=5,10,20)上的结果与Vivisimo算法相当,二者均20西 安 交 通 大 学 学 报 第43卷
【作者单位】: 西安交通大学电子与信息工程学院;
【基金】:国家高技术研究发展计划资助项目(2006AA01Z210)
【分类号】:TP391.1
【二级参考文献】
相关期刊论文 前3条
1 吴春明;陈治;姜明;;蚁群算法中系统初始化及系统参数的研究[J];电子学报;2006年08期
2 黄永青;梁昌勇;张祥德;;基于均匀设计的蚁群算法参数设定[J];控制与决策;2006年01期
3 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
【相似文献】
相关期刊论文 前10条
1 王海云;刘金岭;;基于查询词扩展的文本检索算法研究[J];计算机与数字工程;2011年06期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前6条
1 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 张志强;孟庆海;谢晓芹;;个性化的社会标签查询扩展技术研究[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 李鹏;王斌;石志伟;崔雅超;李恒训;;Tag-TextRank:一种基于Tag的网页关键词抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张书娟;董喜双;关毅;;基于电子商务用户行为的同义词识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 张耀允;王晓龙;王轩;徐睿峰;侯永帅;范士喜;;面向开放的限定领域的交互式问答语料分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前4条
1 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
相关硕士学位论文 前10条
1 黄黎;基于形式概念分析的搜索结果聚类研究[D];华中科技大学;2005年
2 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
3 李星华;中英文新闻网页关键词抽取技术研究[D];合肥工业大学;2009年
4 仇绍刚;基于元搜索的知识获取方法与系统集成研究[D];大连理工大学;2009年
5 冯运;信息检索中的查询算法研究[D];湖南大学;2007年
6 武娜;视频搜索结果分析及其可视化方法研究与应用[D];东华大学;2010年
7 吴春龙;宋词风格的计算机辅助分析研究[D];厦门大学;2008年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 周云庆;基于维基百科的搜索结果挖掘[D];上海交通大学;2011年
10 梅筱;视频特征及其描述词汇的对齐研究[D];北京邮电大学;2011年
,本文编号:2531780
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2531780.html