SparkCRF:一种基于Spark的并行CRFs算法实现
本文关键词:SparkCRF:一种基于Spark的并行CRFs算法实现
更多相关文章: 大数据 机器学习 分布式计算 Spark 条件随机场
【摘要】:条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.
【作者单位】: 东北大学计算机科学与工程学院;中国科学院计算技术研究所网络数据科学与技术重点实验室;
【关键词】: 大数据 机器学习 分布式计算 Spark 条件随机场
【基金】:国家“九七三”重点基础研究发展计划基金项目(2014CB340405,2013CB329602) 国家重点研发计划基金项目(2016YFB1000902) 国家自然科学基金项目(61173008,61232010,61272177,61303244,61402442) 北京市自然科学基金项目(4154086)~~
【分类号】:TP391.1
【正文快照】:
【相似文献】
中国期刊全文数据库 前10条
1 宗萍;施水才;王涛;吕学强;;基于条件随机场的英文地理行政实体识别[J];现代图书情报技术;2009年02期
2 张开旭;夏云庆;宇航;;基于条件随机场的古汉语自动断句与标点方法[J];清华大学学报(自然科学版);2009年10期
3 成姣;蔡东风;季铎;;基于条件随机场的日语依存分析[J];沈阳航空工业学院学报;2010年05期
4 李玲玲;金泰松;李翠华;;基于局部特征和隐条件随机场的场景分类方法[J];北京理工大学学报;2012年07期
5 宁伟;蔡东风;张桂平;季铎;苗雪雷;;基于条件随机场的冠词选择研究[J];中文信息学报;2008年06期
6 张玉芳;莫凌琳;熊忠阳;耿晓斐;;基于条件随机场的科研论文信息分层抽取[J];计算机应用研究;2009年10期
7 王昌厚;;基于条件随机场的中文命名体识别[J];福建电脑;2012年02期
8 施水才;王锴;韩艳铧;吕学强;;基于条件随机场的领域术语识别研究[J];计算机工程与应用;2013年10期
9 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[J];中文信息学报;2008年06期
10 方莹;;基于条件随机场的英文农产品名识别[J];河南科学;2011年03期
中国重要会议论文全文数据库 前5条
1 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 张奇;翁富良;黄萱菁;吴立德;;英文口语中非流利区域的检测[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 魏玮;杜金华;徐波;;基于分层语块分析的统计翻译研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 王根;赵军;;基于多重冗余标记CRF的句子情感分析研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 宁伟;蔡东风;季铎;;基于条件随机场的冠词选择研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前1条
1 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 赵九洋;图像中行人检测关键技术研究[D];南京大学;2015年
2 宁振;基于层叠条件随机场的情感分析[D];南昌大学;2015年
3 杨献祥;面向中文微博的产品名实体识别与规范化算法设计与实现[D];北京理工大学;2015年
4 肖s,
本文编号:664281
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/664281.html