当前位置:主页 > 科技论文 > 软件论文 >

基于Word2Vec的一种文档向量表示

发布时间:2018-05-07 23:02

  本文选题:TF-IDF + wordvec ; 参考:《计算机科学》2016年06期


【摘要】:在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。
[Abstract]:In text classification, how to express a document efficiently using the word2vec word vector is always a difficult point. At present, the doc2vec model which combines the word2vec model and the clustering algorithm can effectively express the document information. However, this method seldom considers the influence of the single word to the whole document. In order to solve this problem, the use of TF-ID The F algorithm calculates the weight of the word in each document and generates the document vector with the word2vec word vector, and finally applies it to the Chinese document classification. The experiment on the Chinese corpus of Sogou Chinese verifies the effectiveness of the new method.

【作者单位】: 西南大学计算机与信息科学学院;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 卢红;;对档案管理中的文档分类技术应用的分析[J];科技与企业;2013年18期

2 周水庚,俞红奇,胡江滔,付辛,胡运发;基于相邻字对信息的中文文档分类研究[J];小型微型计算机系统;2001年04期

3 方加沛;黄战;;基于单类别文档分类的主题爬虫[J];计算机工程与应用;2010年16期

4 孟海东;刘小荣;;基于聚类分析的图模型文档分类[J];计算机应用与软件;2012年01期

5 姜鹏;许峰;戚荣志;;一种基于云平台的防汛文档智能生成模型构建[J];水利信息化;2013年03期

6 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期

7 王兰富;;不同时间文档分类有妙招[J];电脑迷;2005年13期

8 陈频,王周敬;基于语义分析和外延匹配的文档分类方法[J];福建电脑;2005年10期

9 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期

10 覃刚力;黄科;杨家本;;基于主动学习的文档分类[J];计算机科学;2003年10期

相关会议论文 前4条

1 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

2 胡江滔;周水庚;周傲英;;基于遗传算法的中文WEB文档分类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

3 王自强;孙霞;钱旭;;基于信息瓶颈和拉普拉斯SVM的Web文档分类算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

4 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

相关重要报纸文章 前2条

1 ;管理您的信息[N];网络世界;2001年

2 晓蕙;合肥协力仪表:CAXA提升设计开发管理水平[N];科技日报;2008年

相关博士学位论文 前3条

1 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年

2 谭琦;面向跨领域文档分类的异构迁移学习算法研究[D];华南理工大学;2013年

3 蔡鹏;排序学习中的领域自适应研究[D];华东师范大学;2011年

相关硕士学位论文 前10条

1 邹亚R,

本文编号:1858832


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1858832.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ed627***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com