基于VSM的科技期刊文献与专利文献的相似度计算方法研究
本文关键词:基于VSM的科技期刊文献与专利文献的相似度计算方法研究
更多相关文章: 自然语言处理 TF-IDF 向量空间模型 科技期刊 专利 相似度
【摘要】:文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。
【作者单位】: 中国科学技术信息研究所;
【关键词】: 自然语言处理 TF-IDF 向量空间模型 科技期刊 专利 相似度
【基金】:国家社会科学基金项目(项目编号:14BTQ038) 中国科学技术信息研究所科研项目预研资金项目(项目编号:YY2016-08)的支持
【分类号】:TP391.1
【正文快照】: 1 引言 国家和政府对科技文献数据资源的建设非常重视,2012年1月30日刘延东同志视察中国科学技术信息研究所时强调,加快科技信息事业发展,既是应对日益激烈的国际竞争、实现创新驱动的迫切要求,也是提高我国科技改革发展的基础水平和创新能力的客观需要。如何帮助用户全面、
【相似文献】
中国期刊全文数据库 前10条
1 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期
2 丁政建;张路;;一种改进的本体相似度计算方法[J];计算机工程;2010年24期
3 朱珍元;郑诚;;一种改进的本体相似度计算方法[J];微型机与应用;2011年01期
4 崔韬世;麦范金;;词语相似度计算方法分析[J];网络安全技术与应用;2012年05期
5 王国春;郑山红;赵辉;董亚则;;基于阶段递进的综合本体相似度计算方法[J];吉林大学学报(信息科学版);2014年02期
6 张忠平;田淑霞;刘洪强;;一种新的本体相似度计算方法[J];计算机应用研究;2008年10期
7 赵欢;李仁发;王家琴;张在美;;综合多层信息的本体概念相似度计算方法的研究[J];通信学报;2009年06期
8 李改;李章凤;李磊;;一种新的社会化相似度计算方法[J];计算机应用研究;2013年09期
9 曾辉;徐海洲;钟茂生;;基于主题和焦点的问句相似度计算方法[J];科学技术与工程;2014年06期
10 张忠平;田淑霞;刘洪强;;一种综合的本体相似度计算方法[J];计算机科学;2008年12期
中国重要会议论文全文数据库 前8条
1 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 陈希友;冯少荣;张东站;薛永生;;基于反馈的用户访问预测模型[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
8 李天宁;肖桐;朱靖波;;科技论文的IPC自动标注[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前1条
1 吴小坤;轻量级服务推荐算法研究[D];北京邮电大学;2015年
中国硕士学位论文全文数据库 前10条
1 唐积益;推荐系统中相似度计算方法的研究[D];江苏科技大学;2015年
2 张广源;微博检索系统关键技术研究与实现[D];北京工业大学;2015年
3 尹路修;XML文档的聚类研究[D];湖南师范大学;2015年
4 邹能清;一种基于语义网络的中文文本相似度计算方法[D];湘潭大学;2015年
5 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
6 唐中林;基于本体的概念相似度计算方法的研究[D];武汉理工大学;2013年
7 徐海洲;自动问答系统中问句相似度计算方法研究[D];华东交通大学;2014年
8 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
9 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
10 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
,本文编号:790125
本文链接:https://www.wllwen.com/wenshubaike/jieribaike/790125.html