微博文本的句向量表示及相似度计算方法研究
本文关键词: 微博文本 相似度计算 词向量 高维词库 句向量 出处:《计算机工程》2017年05期 论文类型:期刊论文
【摘要】:在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。
[Abstract]:In the framework of Word2vec, according to the characteristics of Weibo's text, a method of calculating sentence vector by word vector or high-dimensional lexicon mapping is put forward. Three kinds of algorithms are used to construct sentence vector, that is, the sentence vector is represented by TF-IDF method after the extension by Word2vec to Weibo's text. The word vector of each word in a sentence is added together to form a sentence vector; a high-dimensional lexicon is constructed, and each word in the sentence is mapped to a high-dimensional lexicon to form a sentence vector. The experimental results show that the method of high-dimensional lexicon mapping is the best method to calculate the sentence vector of Weibo.
【作者单位】: 北京信息科技大学智能信息处理研究所;
【基金】:国家自然科学基金(61370139) 北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 王钧;赵曰利;;浙大中药指纹图谱相似度计算软件在烟用香精香料色谱分析中的引入应用[J];现代仪器;2007年03期
2 单建芳;刘宗田;周文;;事件相似度计算[J];小型微型计算机系统;2010年04期
3 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期
4 邸书灵;刘晓飞;李欢;;基于分词的语句相似度计算的改进[J];石家庄铁道大学学报(自然科学版);2011年04期
5 秦学勇;张润梅;;两级相似度计算在主观题机器阅卷中的应用[J];计算机工程;2012年11期
6 田卫东;强继朋;;基于问句类型的问句相似度计算[J];计算机应用研究;2014年04期
7 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期
8 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期
9 兰美辉;任友俊;徐坚;高炜;;k-部排序本体相似度计算[J];计算机应用;2012年04期
10 田文英;;基于本体的概念相似度计算研究[J];计算机光盘软件与应用;2012年05期
相关会议论文 前10条
1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
9 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关博士学位论文 前4条
1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
相关硕士学位论文 前10条
1 梁韬;中文微博新词与热点话题发现技术研究[D];湖南工业大学;2015年
2 汪建成;汉越双语新闻话题分析方法研究[D];昆明理工大学;2015年
3 唐海燕;基于全文的教育资源检索模型研究[D];四川师范大学;2015年
4 舒佳根;中文实体链接研究[D];苏州大学;2015年
5 孔行;基于主题推荐的辅助写作系统[D];哈尔滨工业大学;2015年
6 孙润志;基于语义理解的文本相似度计算研究与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年
7 刘敏;基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D];北京理工大学;2015年
8 康毅;面向客服的自动问答系统关键技术研究[D];东北大学;2014年
9 吴宇浩;南海档案数字化半自动校勘中的底本推荐探讨[D];南京大学;2015年
10 吐尔逊阿依·阿不来提;小学维吾尔语文教材中的单句相似度研究[D];新疆师范大学;2015年
,本文编号:1536788
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1536788.html