当前位置:主页 > 科技论文 > 软件论文 >

基于word2vec和LSTM的饮食健康文本分类研究

发布时间:2018-04-18 07:47

  本文选题:文本分类 + wordvec ; 参考:《农业机械学报》2017年10期


【摘要】:为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。
[Abstract]:In order to efficiently classify diet text information, a classification model based on word2vec and Long-short term memory (LSTM) was established.In view of the characteristics of food encyclopedia and healthy diet text, a word vector representation containing semantic information is implemented by using word2vec, and the problems of sparse data representation and dimensionality disaster caused by traditional methods are solved.In order to improve the quality of training data based on K-means clustering according to semantic relations.The text vector was constructed by word2vec as the initial input of LSTM, the LSTM classification model was trained, the feature was extracted automatically, and the text classification with proper diet and taboo was carried out.The experimental results show that the classification accuracy is 98.08, which is higher than that of the text numerical representation method such as tf-idffbag-of-words, support vector machine (SVM) and convolutional neural network (CNN) classification algorithm based on support vector machine (SVM) and convolutional neural network (CNN).The experimental results show that this method can automatically classify the text of diet with high quality and help people to use healthy diet information effectively.
【作者单位】: 中国农业大学信息与电气工程学院;公安部第三研究所;
【基金】:信息网络安全公安部重点实验室开放课题项目(61503386)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期

2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

10 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

6 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年

7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

3 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

4 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

5 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

6 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

7 王s,

本文编号:1767473


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1767473.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5133e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com