一种基于BERT的中文NL2SQL模型

发布时间:2022-01-17 09:40
  Bert模型为Google开发的基于Transformer Encoder的大规模语料预训练语言模型,在自然语言处理领域(Natural language Processing)近乎各个子领域内均获得了大幅度的突破。本文在基于Bert作为数据增强的基础上,研究对当前人工智能领域中的一个实用性任务:NL2SQL(即“自然语言转SQL语句”任务)。创新地设计了新型的针对19年发布的首个中文NL2SQL数据集的深度学习模型,并达到了87%左右的准确率,接近了当前State-Of-The-Art模型X-SQL在英文NL2SQL数据集WikiSQL上的表现。 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

一种基于BERT的中文NL2SQL模型


图1.4:中文NL2SQL数据集样例??-5-??

模型图,数据集中,中文,字段


,丁313'16_3让2<:3〇14'#衰格名称??”titimi:?2019年新幵工预酒”,#褒格??”header”:?[?#我格所包含的列名??"300域市土地出让”,??”规划速筑面积C/im5)”,??1,??"types”:?[#农格列所祖应的笑盤??"text",??"real",??],??”rows”:?[#授格每?行所存储的道??t??”2009年?7巧-2010年6月",??168212.4,??]??3??}??图1.5:中文NL2SQL数据集中SQL字段说明??下面简要深度学习模型对于该NL2SQL数据集如何才能由用户问题自动构??建SQL表达式。如下图所示,对于自然语言查询语句“二零一九年第四周大??-6-??

子任务,解耦,训练样本,票房


???title*:?*表3,?2019年354网(2019.01.28?-?2019.0Z03)全Ufl电影票房TOP10*,???header、[m名称?,?阀票房(")?,*票房占比(%)?'?场均人次?],??-C〇IaD〇n’:’资M来源:艿思1&影如4.光人证羚研九所'??'id*:?*4d29d0513aaalle9b911f40f24344a08",??"types":?["lexl*,?*real'?"real*-,?*real*]??)??图1.6:第一条训练样本??NL2SQL任务所需做的是将原任务解耦为各种子任务来确定最终生成的SQL??表达式的各个模块,进而构建完整语句并经其检索正确答案。??具体地,通过自然语言査询语句中的“票房总占比是多少”,模型能够正确??对应表格中的第三个特征列“票房占比(%)”,即“sel:⑵”;和对应的聚合函??数,即“agg:间”。从自然语言査询语句中的“大黄蜂和密室逃生”模型能正确??得出”大黄蜂”和”密室逃生”这两个条件同时确定两条件间关系为“AND”,即??确定?“conds”?和?“cond_conn_op”?具体的值。??当以上各SQL子句均能正确预测时,NL1SQL模型即可正确生成对应上述??样例的SQL表达式如下:??SELECT?SUM(col_3)?FROM?Table—4d29d0513aaalle9b911f40f24344a08??WHERE?(col—1?==,大黄蜂,and?col_l?==,密室逃生,)??-7-??

【参考文献】:
期刊论文
[1]基于表格的自动问答研究与展望[J]. 李智,王震,杨赋庚,奚雪峰.  计算机工程与应用. 2021(13)

硕士论文
[1]面向自然语言问句的结构化查询语句生成方法研究与实现[D]. 张立国.天津工业大学 2020



本文编号:3594499

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3594499.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eeeeb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com