利用博客链接平台选取联合关键字的博客聚类方法
本文关键词: 关键字提取 博客链接平台 博客聚类 联合关键字 相似性度量 出处:《计算机应用研究》2017年12期 论文类型:期刊论文
【摘要】:针对全文本关键字检索的时间成本高、采用标签/类别会产生语句歧义和同义词等问题,提出在博客链接平台上选取联合关键字进行博客聚类。假设一个博客文章被查询的候选关键字(或者联合关键字)可以用于表示这个博客文章的主题,为验证该假设,首先将跟踪代码嵌入到博客链接(BC)组件中,以收集读者查询的关键字;然后,选取适当的候选关键字作为联合关键字;最后,使用重叠投影、交互信息投影、分布式分布信息和肯德尔τ系数这四种相似性度量以验证BC组件提取的联合关键字。实验结果表明,提出的方法可以为查询者提供一条找到对应博客的快速通道;此外,生成的联合关键字可以减少全文本关键字检索过程的复杂度和冗余度,很好地满足了博客用户的需求。
[Abstract]:In view of the high time cost of full-text keyword retrieval, the use of labels / categories will lead to the ambiguity of statements and synonyms and other problems. Suppose a blog post is queried for candidate keywords (or joint keywords) can be used to represent the topic of this blog article. To verify this hypothesis, the trace code is first embedded into the blog link (BC) component to collect the keywords of the reader's query. Then, the appropriate candidate keywords are selected as joint keywords. Finally, overlap projection, interactive information projection, distributed distribution information and Kendall 蟿 coefficient are used to verify the joint keywords extracted by BC components. The proposed method can provide a fast way to find the corresponding blog for the searcher. In addition, the generated joint keywords can reduce the complexity and redundancy of the whole text keyword retrieval process and meet the needs of blog users.
【作者单位】: 运城学院计算机科学与技术系;中国民航大学计算机科学与技术学院;
【基金】:国家自然科学青年基金资助项目(61301245)
【分类号】:TP391.1;TP393.092
【正文快照】: 0引言由于网络用户能够非常便利地在博客上发布信息,博客已经变成了一个主要的信息分享平台[1],这些信息包括各种个人想法、新闻以及娱乐消息。越来越多的博客写手希望将其发布的信息分享给更多读者,利用博客也可以进行一些潜在的商业活动[2],但每个博客之间仍然是相互隔离的
【相似文献】
相关期刊论文 前10条
1 冯丽敏;杨艳;钟颖莉;;基于相关查询的关键字搜索优化技术[J];计算机研究与发展;2013年S1期
2 杨彦武;郭迅华;曾大军;张杰;秦蕊;;搜索竞价广告中关键字最优化策略[J];信息系统学报;2013年01期
3 吕安迪;支援超逾40种格式的CompuPicPro5.1[J];广东电脑与电讯;2000年08期
4 王兰富;;高效快捷的免费电子剪报[J];电脑迷;2005年06期
5 俗人;;关键字密度:关于搜索的秘密[J];互联网天地;2007年01期
6 杨晓东;朱皓;杨卫东;施伯乐;;基于结构语义的XML关键字搜索[J];计算机应用与软件;2009年10期
7 唐明珠;杨艳;杜蕾;钟颖莉;;关系数据库关键字搜索系统Discover的实验与分析[J];智能计算机与应用;2011年04期
8 蒋凯;关佶红;;基于重启型随机游走模型的图上关键字搜索[J];计算机工程;2011年03期
9 李寅珠;;融合关键字搜索的XML非结构化查询[J];知识经济;2011年13期
10 马光志;朱辉;龚小翔;;基于双层索引网络模型的P2P数据库关键字搜索[J];计算机工程与设计;2007年14期
相关会议论文 前8条
1 朱皓;杨卫东;魏正军;施伯乐;;XML关键字搜索中一个高效的寻找XLCA的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘喜平;万常选;;一种二维的树型文档结构相似性度量[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 刘俊义;王润生;;仿射不变的多边形相似性度量[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
4 刘国华;施伯乐;季文峗;;一种求解对象候选关键字的算法[A];第十六届全国数据库学术会议论文集[C];1999年
5 李彬彬;罗乐;;基于信源学的光谱相似性度量方法的比较研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
6 周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
7 刘宝生;闫莉萍;周东华;;图像匹配中相似性度量[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 李新光;郑君君;祝一薇;刘建军;夏胜平;谭立球;;基于属性图模型的图像相似性度量[A];第十五届全国图象图形学学术会议论文集[C];2010年
相关博士学位论文 前6条
1 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
2 赵秀丽;基于有趣地点压缩的移动点对象时空轨迹聚类研究[D];北京交通大学;2016年
3 白雪;聚类分析中的相似性度量及其应用研究[D];北京交通大学;2012年
4 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
5 王鹏;基于稳定层次空间形态的道路网匹配[D];中国地质大学;2017年
6 周瑜;视频跟踪中的目标建模及相似性度量研究[D];华中科技大学;2014年
相关硕士学位论文 前10条
1 吕宗胜;关系数据库关键字搜索和数据集成[D];浙江大学;2015年
2 杨倚;云计算中对称可搜索加密方案的研究[D];电子科技大学;2015年
3 闫文婷;基于云环境下排序的模糊关键字搜索[D];西安电子科技大学;2015年
4 葛楠;云环境中基于中文的可搜索加密技术研究[D];西安电子科技大学;2015年
5 张晴;关键字搜索服务平台的自动化安装与部署的设计与实现[D];北京邮电大学;2008年
6 杜军强;云计算中加密数据的模糊关键字搜索方法研究[D];陕西师范大学;2014年
7 蒋凯;图上的关键字搜索算法[D];复旦大学;2010年
8 李诗e,
本文编号:1453635
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1453635.html