中文分词方法在农业搜索中的应用研究

发布时间:2017-05-01 01:06

  本文关键词:中文分词方法在农业搜索中的应用研究,由笔耕文化传播整理发布。


【摘要】:为了方便从事专业农业的相关研究人员,准确及时的获取相关信息,为其提供决策依据,加快农业信息化、智能化建设的趋势不可逆转。中文分词技术是农业垂直搜索、农业专家系统、农业知识推送、农业信息检索、农业数据挖掘等方面不可或缺的一个重要环节。通过对现有的中文分词方法的研究,切分的准确率主要取决分词方法和分词词典,因此,本文提出基于粒子群的N最短路径方法分词模型,并将其应用于农业搜索方面。全文的主要研究结果如下:(1)基于词的n元语法模型的分词方法,针对该方法是基于词典的分词,构造出所有的分词路径,最后利用相关的搜索算法,从所有路径中找到代价最小的路径作为最后的分词结果,本文所用的搜索算法是改进的粒子群算法,主要的改进有以下两点。首先,针对其收敛精度不高,极易收敛于局部最优的问题。引入了一种随迭代次数和粒子间距离大小动态改变的惯性权重,通过设置比例系数控制二者对惯性权重的影响力度,在此基础上为了增加种群多样性,又引入“杂交变异”算子,设计了一种基于杂交变异的动态粒子群优化算法,通过测试算法的测试有效的提高了算法的效率;其次,深入分析后结合粒子群算法的优点,利用最优粒子和其它粒子在种群中的不同作用,给出了一种自适应变异粒子群算法,算法中最优粒子根据种群进化程度,自适应调整自身搜索邻域大小,增强种群的局部搜索能力;对非最优粒子的位置进行小概率的随机初始化,当其速度为零时,速度自适应变化,以便增强种群多样性和全局搜索能力。仿真实验结果表明,增强种群多样性的同时提高了局部搜索能力。(2)将改进的粒子群算法用于分词算法的最短路径寻优,创建基于粒子群的N最短路径方法分词模型,并将其用于分词,实验结果表明,在同一核心词典分词词库下,粒子群N-最短路径方法相对于其他算法句子的正确召回率更高,进一步分析实验发现正确切分率有很大一部分取决于核心词典。(3)利用Python编程工具,实现并利用网页抓取技术,建立了农业专业领域的真实语料库,该语料主要来源于中国知网农业基础科学、农业工程、农艺学、植物保护、农作物、园艺、林业、畜牧与动物医学、蚕蜂与野生动物保护、水产和渔业等专题,共包含694种期刊,近五年的全部文章的题目、关键字以及摘要,一共有968125条记录;选取真实语料库中,694中期刊2014年第一期的所有文章的摘要,共21269条记录作为分词标准语料库,以此为基础构建训练语料库,以及分词词典。(4)利用基于粒子群的N最短路径方法分词模型、网页抓取技术以及网络垂直搜索技术,将中文分词技术应用于农业专业领域搜索。设计并开发了关键词主题垂直搜索的应用工具。对可行性和需求分析之后,并对涉及到的相关技术做了技术实现,最后成功开发了搜索工具。
【关键词】:中文分词模型 网页抓取 农业语料库 农业专业词典 农业垂直搜索
【学位授予单位】:四川农业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 1 绪论10-18
  • 1.1 立题背景及研究意义10-11
  • 1.1.1 立题背景10-11
  • 1.1.2 研究意义11
  • 1.2 国内外研究现状11-15
  • 1.2.1 中文分词技术11-12
  • 1.2.2 中文分词技术发展现状12-13
  • 1.2.3 中文分词方法发展现状13-15
  • 1.2.4 中文分词在农业中的应用现状15
  • 1.3 研究内容及结构安排15-18
  • 1.3.1 研究内容15-16
  • 1.3.2 论文结构安排16-18
  • 2 中文分词18-22
  • 2.1 中文分词的数学描述18-20
  • 2.2 基于词的n元语法模型的分词方法20-21
  • 2.3 NLPIR汉语分词系统21-22
  • 3 基于改进粒子群算法优化的中文分词方法研究22-43
  • 3.1 标准粒子群算法22
  • 3.1.1 算法原理22
  • 3.2 杂交变异粒子群算法22-25
  • 3.2.1 数值实验及结果23-25
  • 3.3 自适应变异粒子群算法25-35
  • 3.3.1 算法变异策略分析26-28
  • 3.3.2 改进算法流程28
  • 3.3.3 数值试验及对比分析28-35
  • 3.4 基于粒子群算法优化的中文分词模型35-42
  • 3.4.1 模型分析36-37
  • 3.4.2 一元语法模型的求解与实现37-38
  • 3.4.3 分词算法实验及结果分析38-39
  • 3.4.4 与常用方法的对比分析39-42
  • 3.5 本章小结42-43
  • 4 农业领域中文分词语料库以及词典的建立43-54
  • 4.1 网页抓取技术43-46
  • 4.1.1 网页抓取解析过程43-44
  • 4.1.2 网页抓取实例44-46
  • 4.2 建立语料库及词典46-53
  • 4.2.1 农业专业语料抓取46-49
  • 4.2.2 建立农业专业语料库及词典49-53
  • 4.3 本章小结53-54
  • 5 中文分词技术的农业领域中的应用54-61
  • 5.1 农业专业领域网络垂直检索54-55
  • 5.1.1 可行性研究54-55
  • 5.1.2 需求分析55
  • 5.2 信息采集模块的设计与实现55-60
  • 5.2.1 关键词主题网络检索及抓取55-56
  • 5.2.2 基于搜索引擎的相关性分析实现56-58
  • 5.2.3 搜索工具的测试与分析58-60
  • 5.3 本章总结60-61
  • 6 结论与展望61-63
  • 6.1 结论61-62
  • 6.2 展望62-63
  • 参考文献63-66
  • 致谢66-67
  • 攻读学位期间取得的研究结果67

【相似文献】

中国期刊全文数据库 前10条

1 张江;基于规则的分词方法[J];计算机与现代化;2005年04期

2 杨柳;袁方;霍亮;;基于渐进式丰富词典的分词方法研究[J];计算机工程与应用;2006年32期

3 彭正龙;许炎义;;一种新的词典分词方法[J];计算机与信息技术;2009年12期

4 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期

5 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期

6 赵曾贻,陈天娥,朱兰;一种基于语词的分词方法[J];苏州大学学报(自然科学);2002年03期

7 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[J];中文信息学报;2007年03期

8 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期

9 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期

10 王忠建;王悦;;归纳学习与规则结合的分词方法的有效性考察[J];哈尔滨师范大学自然科学学报;2010年01期

中国重要会议论文全文数据库 前5条

1 陈晓;靳光瑾;黄昌宁;;基于字的分词方法的实验研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

2 王俞霖;孙乐;李文波;;基于单字消除和实体识别的查询切分研究[A];第五届全国信息检索学术会议论文集[C];2009年

3 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

4 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年

5 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

中国硕士学位论文全文数据库 前5条

1 游治勇;基于字的分词方法的研究与实现[D];电子科技大学;2015年

2 周利军;中文分词方法在农业搜索中的应用研究[D];四川农业大学;2015年

3 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年

4 刘浩;面向情感搜索的中文语料分析及其分词[D];北京邮电大学;2014年

5 田占霄;中英文混合分词方法及应用研究[D];河北农业大学;2009年


  本文关键词:中文分词方法在农业搜索中的应用研究,,由笔耕文化传播整理发布。



本文编号:337928

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/337928.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户256e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com