基于查询日志分析的中文网页关键词抽取方法
本文关键词:基于查询日志分析的中文网页关键词抽取方法
【摘要】:以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。
【作者单位】: 福建师范大学协和学院;福建师范大学经济学院;
【基金】:国家社会科学基金资助项目(14CJL001)
【分类号】:TP391.1;TP393.092
【正文快照】: 0引言关键词是文档主要内容和中心意思的浓缩表示,准确抽取关键词将有助于文档理解及文档管理。搜索引擎全文检索的相关度让人失望,而手工标注关键词也变得不再可行,在此背景下,利用计算机技术自动抽取关键词变得更为重要。目前关键词自动抽取领域非常活跃,国内外相继提出了多
【参考文献】
中国期刊全文数据库 前5条
1 陆勇,侯汉清;用于信息检索的同义词自动识别及其进展[J];南京农业大学学报(社会科学版);2004年03期
2 钱爱兵;江岚;;基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J];情报理论与实践;2008年06期
3 章成敏,鞠海燕;基于混合策略的中文查询串相似度计算[J];情报杂志;2005年11期
4 李纲;戴强斌;;基于词汇链的关键词自动标引方法[J];图书情报知识;2011年03期
5 章成志;;自动标引研究的回顾与展望[J];现代图书情报技术;2007年11期
【共引文献】
中国期刊全文数据库 前10条
1 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
2 李斌;宋小华;;本体的中文语义网查询优化[J];电脑编程技巧与维护;2009年S1期
3 刘政;朱杰;吴树芳;曹振;;信息检索中的同义词[J];电脑知识与技术;2009年09期
4 严春风;;基于决策树的关键短语抽取的研究[J];电脑知识与技术;2009年20期
5 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
6 张永刚;梁颖红;颜振祥;姚建民;;基于统计的中文关键短语自动抽取[J];江南大学学报(自然科学版);2010年01期
7 白彦霞;云彩霞;李珊;张秋菊;杨鹏;;多层的贝叶斯网络检索模型[J];计算机工程与应用;2009年16期
8 徐建民;唐万生;;基于查询术语同义词的扩展信念网络检索模型[J];计算机工程;2007年10期
9 徐建民;白彦霞;吴树芳;;基于术语相似度的贝叶斯网络检索模型扩展[J];计算机工程;2007年16期
10 徐建民;白彦霞;吴树芳;;基于同义词扩展的贝叶斯网络检索模型[J];计算机应用;2006年11期
中国重要会议论文全文数据库 前5条
1 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
2 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,自动化及先进集成技术大会论文集(二)[C];2007年
3 宋丹;师庆辉;薛德军;林鸿飞;;术语同义词的自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 徐朝军;;基于主题搜索的通用教学资源共享平台设计[A];全国计算机辅助教育学会“计算机辅助教育软件开发与应用”研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
3 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
6 蒋玲;面向学科的知识元标引关键技术研究[D];华中师范大学;2011年
7 黄建年;农业古籍的计算机断句标点与分词标引研究[D];南京农业大学;2009年
8 张少英;同义心理活动动词解析模式研究[D];北京大学;2013年
9 韩春平;敦煌文献数字化问题研究[D];兰州大学;2013年
10 周鹏;面向危机事件感知的微博信息加工方法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
3 李长进;基于中文带权关键词树的受限领域问答系统研究[D];山东经济学院;2011年
4 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
5 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
6 宋宇轩;基于搜索日志和点击日志的同义词挖掘的研究和实现[D];北京交通大学;2011年
7 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
8 张宗仁;基于自然语言理解的本体语义信息检索[D];暨南大学;2011年
9 王\~;基于Lucene的同义词扩展检索的研究与实现[D];天津财经大学;2011年
10 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
2 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
3 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
4 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
5 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
6 胡学钢;李星华;谢飞;吴信东;;基于词汇链的中文新闻网页关键词抽取方法[J];模式识别与人工智能;2010年01期
7 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
8 韩冬梅;后控词表的设计开发与利用[J];情报学报;1994年04期
9 宋明亮;汉语词汇字面相似性原理与后控制词表动态维护研究[J];情报学报;1996年04期
10 张明宝;谢宗旺;;一种基于知网的中文词汇链构建算法研究[J];软件导刊;2008年10期
中国博士学位论文全文数据库 前1条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前2条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
2 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期
2 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期
3 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期
4 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期
5 何彦青;周玉;宗成庆;王霞;;基于“松弛尺度”的短语翻译对抽取方法[J];中文信息学报;2007年05期
6 叶春蕾;冷伏海;;基于词汇链的路线图关键词抽取方法研究[J];现代图书情报技术;2013年01期
7 麦热哈巴·艾力;阿孜古丽·夏力甫;吐尔根·依布拉音;;维吾尔语多词表达抽取方法研究[J];计算机工程与应用;2014年08期
8 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
9 王大亮;张德政;涂序彦;郑雪峰;佟子健;;基于相对条件熵的搭配抽取方法[J];北京邮电大学学报;2007年06期
10 吴中彪;刘椿年;;面向中文短信的信息抽取方法[J];计算机工程;2011年21期
中国重要会议论文全文数据库 前10条
1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 吕云云;基于集成学习的中文观点句抽取方法研究[D];山西大学;2013年
2 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年
3 徐晓明;面向手机用户的社团抽取方法研究[D];吉林大学;2014年
4 李震;基于聚类的事件蕴涵抽取方法研究与实现[D];哈尔滨工业大学;2011年
5 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年
6 张文文;网络文本观点句抽取方法研究[D];国防科学技术大学;2012年
7 王强;基于结构化预测模型的企业信息联合抽取方法研究[D];南京师范大学;2014年
8 邹莎莎;文本信息结构抽取方法的研究[D];大连理工大学;2010年
9 张洪恩;基于语义的Web信息抽取方法的研究与应用[D];重庆大学;2011年
10 李莹;文本病历信息抽取方法研究[D];浙江大学;2009年
,本文编号:1293604
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1293604.html