相似问句判别研究
发布时间:2021-01-16 01:45
对于搜索引擎而言,如何能够正确理解用户提出的问题十分重要。而在识别问句的过程中,如何能够对形式不同而语义相似的问句进行相似性识别后,归一化处理,则会对整个搜索引擎的效果有一个明显的提升。对此,本文提出了一种基于机器学习的问句相似性判别模型,从数据集的构建到特征的提取,探究了相应的解决方案。本文创新性地从5个方面提取了不同类型的特征,并将其应用到整个分类器的建模过程中。实验结果表明,该方法能够在现有的语料上取得令人满意的结果,F值达到了83%。
【文章来源】:智能计算机与应用. 2019,9(06)
【文章页数】:4 页
【部分图文】:
页面抽取块样例Fig.2Exampleofweb-page一致性判别方法
恿兄腥〕鲆桓?URL,然后通过HTTP协议爬取对应页面,保存到网页库。整个过程不断重复,直到有足够的网页被访问过,或者已达到其它的既定目标。!"#$%"&’#$()*+,-./)*012345*6789:;<5*!"#:=>#$?@ABCD#$EF!"#$%;<./图1爬虫算法流程图Fig.1Processofthecrawler由百度知道上爬取了若干网页原始数据后,需要从中抽取有用的信息,即问题对。由此可知在一个问题的页面中,存在有如下两部分内容—类似问题和相关知识,这两部分内容恰好可以构成所需要的问题对。如图2所示。问题是:iphone好用么(http://zhidao.baidu.com/question/542432940.html)。人们抽取了其中的“类似问题”块同原始问题组成问题对,作为正例(可归一化的问题对),抽取其中“相关知识”块同原始问题组成负例(不可归一化的问题对)。这样,就获取了充足的问题对。图2页面抽取块样例Fig.2Exampleofweb-page1.2一致性判别方法研究中采用机器学习的方法来处理两个问句的一致性问题。采用逻辑斯蒂回归算法进行分类。为了能够更好地对问题进行判别,除一些基本特征外,人们还从5个方面抽取了问句的相似度信息。表1中列出了抽取的特征,下边将分别介绍在计算相似度上所使用的方法。表1特征向量表Tab.1Featuredescription特征类别说明Stringkernel特征用stringkernel方法从结构的角度获取两个句子的相似度Hownet特征用hownet方法从语义的角度获取两个句子的相似度TermWieght特征利用搜索引擎从词在句子中的重要性角度来计算两个句子的相似度Tfidf特征利用tfidf信息获取两个句子的相似度Rank
【参考文献】:
期刊论文
[1]基于树核函数的中英文代词消解[J]. 孔芳,周国栋. 软件学报. 2012(05)
[2]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
[3]一种基于向量空间模型的多层次文本分类方法[J]. 刘少辉,董明楷,张海俊,李蓉,史忠植. 中文信息学报. 2002(03)
本文编号:2979912
【文章来源】:智能计算机与应用. 2019,9(06)
【文章页数】:4 页
【部分图文】:
页面抽取块样例Fig.2Exampleofweb-page一致性判别方法
恿兄腥〕鲆桓?URL,然后通过HTTP协议爬取对应页面,保存到网页库。整个过程不断重复,直到有足够的网页被访问过,或者已达到其它的既定目标。!"#$%"&’#$()*+,-./)*012345*6789:;<5*!"#:=>#$?@ABCD#$EF!"#$%;<./图1爬虫算法流程图Fig.1Processofthecrawler由百度知道上爬取了若干网页原始数据后,需要从中抽取有用的信息,即问题对。由此可知在一个问题的页面中,存在有如下两部分内容—类似问题和相关知识,这两部分内容恰好可以构成所需要的问题对。如图2所示。问题是:iphone好用么(http://zhidao.baidu.com/question/542432940.html)。人们抽取了其中的“类似问题”块同原始问题组成问题对,作为正例(可归一化的问题对),抽取其中“相关知识”块同原始问题组成负例(不可归一化的问题对)。这样,就获取了充足的问题对。图2页面抽取块样例Fig.2Exampleofweb-page1.2一致性判别方法研究中采用机器学习的方法来处理两个问句的一致性问题。采用逻辑斯蒂回归算法进行分类。为了能够更好地对问题进行判别,除一些基本特征外,人们还从5个方面抽取了问句的相似度信息。表1中列出了抽取的特征,下边将分别介绍在计算相似度上所使用的方法。表1特征向量表Tab.1Featuredescription特征类别说明Stringkernel特征用stringkernel方法从结构的角度获取两个句子的相似度Hownet特征用hownet方法从语义的角度获取两个句子的相似度TermWieght特征利用搜索引擎从词在句子中的重要性角度来计算两个句子的相似度Tfidf特征利用tfidf信息获取两个句子的相似度Rank
【参考文献】:
期刊论文
[1]基于树核函数的中英文代词消解[J]. 孔芳,周国栋. 软件学报. 2012(05)
[2]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德. 中文信息学报. 2006(01)
[3]一种基于向量空间模型的多层次文本分类方法[J]. 刘少辉,董明楷,张海俊,李蓉,史忠植. 中文信息学报. 2002(03)
本文编号:2979912
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2979912.html