当前位置:主页 > 社科论文 > 一带一路论文 >

汉越新闻观点句抽取与聚类方法研究

发布时间:2017-06-06 13:00

  本文关键词:汉越新闻观点句抽取与聚类方法研究,由笔耕文化传播整理发布。


【摘要】:越南与我国相毗邻,在“一带一路”战略下,两国交流日益频繁,新闻是了解两国国家动态与事件观点的主要载体,由于中文与越南文有着语言的差异,对不同新闻事件与观点的获取和分析工作较难进行。本文针对这一问题,首先对新闻文本处理,利用已知的汉语越南语知识,分析新闻观点句特点,对观点句定义其特征,再通过现有的维基百科知识库概念互译的特点计算汉语越南语词语间的相似度,最后通过观点句间的关联关系融合半监督信息,构建观点句半监督图聚类模型,对混合中越新闻观点句进行聚类。具体研究工作如下:(1)提出了基于SVM的观点抽取方法,该方法首先分析新闻观点句在新闻文本中的位置、与新闻标题的相关度、情感词等特性,构建新闻观点句抽取的特征;接着通过人工标注的新闻观点句,对SVM模型进行训练,达到观点句判别的效果。最后通过实验,验证该方法的效果,实验结果表明,该方法可以有效抽取观点句。(2)提出了基于维基百科的汉语越南语词语相似度计算方法,该方法利用了维基百科上具有多语言概念描述页面,很多概念之间存在翻译对应关系,不同语言词语会出现在不同的概念页面上,且词语与其他概念之间存在一定的共现关系,等特点,首先提取维基百科中汉语越南语具有对应关系的概念集合,构建双语概念特征空间,然后根据词语在相应概念描述文本中出现的词频特征,以及词语与概念在其他概念文本中的共现特征构建词语的概念向量值,最后通过夹角余弦对两个向量进行词语相似度计算。实验结果表明提出的方法在汉越双语词语相似度计算上表现了好的效果,概念共现关系能够提高词语相似度的准确率。该方法为跨语言半监督图观点聚类方法提供了属性之间的关联关系的桥梁。(3)构建了汉语越南语双语新闻观点句聚类的半监督图模型,定义句子间的相似度、关联关系作为特征,其中关联关系包括姓名,地点,及时间的共现。构建半监督图聚类模型时,利用维基百科计算汉语越南语词语相似度,计算跨语言观点句间相似度与不同句子中对应属性的相似值,构建观点句间的边,引入"must-link"和"cannot-link"为监督信息,实现汉语越南语混合环境下的观点句聚类。实验表明,该方法可以将两种语言混合环境下的观点句有效聚类。
【关键词】:词语相似度 维基百科 观点句抽取 图聚类
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-7
  • ABSTRACT7-12
  • 第一章 绪论12-18
  • 1.1 课题研究背景及意义12
  • 1.2 国内外研究现状12-14
  • 1.2.1 单语言观点分析相关研究12-14
  • 1.2.2 跨语言观点分析相关研究14
  • 1.3 本文研究内容14-15
  • 1.4 论文的组织15-18
  • 第二章 语料库及基础资源构建18-24
  • 2.1 新闻语料的获取与预处理18-22
  • 2.1.1 语料的获取18-19
  • 2.1.2 语料的保存19-20
  • 2.1.3 新闻语料的处理20-22
  • 2.2 跨语言观点分析语料库构建22-23
  • 2.2.1 情感词库的构建22
  • 2.2.2 指示词库的构建22-23
  • 2.3 本章小结23-24
  • 第三章 基于svm的新闻观点句抽取24-34
  • 3.1 汉越新闻观点句特点分析25-26
  • 3.2 观点句抽取26-30
  • 3.2.1 SVM原理26
  • 3.2.2 特征定义26-30
  • 3.2.3 svm分类器的构建30
  • 3.3 实验设计与结果分析30-32
  • 3.3.1 实验设计30-31
  • 3.3.2 评价方法31
  • 3.3.3 实验结果与分析31-32
  • 3.4 本章小结32-34
  • 第四章 基于维基百科的汉语越南语词语相似度计算方法34-42
  • 4.1 维基百科页面分析35-36
  • 4.2 汉越词语的表征36-37
  • 4.2.1 词向量的构成36
  • 4.2.2 词语在概念文本上的词频特征值计算36-37
  • 4.2.3 词语与概念的共现特征值计算37
  • 4.3 实验设计与结果分析37-41
  • 4.3.1 测试集构建37-39
  • 4.3.2 实验数据39
  • 4.3.3 评价方法39-40
  • 4.3.4 实验结果与分析40-41
  • 4.4 本章小结41-42
  • 第五章 基于半监督图聚类的汉越新闻观点分析方法42-52
  • 5.1 半监督图聚类基础理论42-44
  • 5.2 基于半监督图聚类的观点分析模型构建44-49
  • 5.2.1 观点属性关联关系特征选取44-46
  • 5.2.2 观点句关联约束规则分析与提取46-47
  • 5.2.3 观点聚类分析模型的构建47-49
  • 5.3 实验与结果分析49-51
  • 5.3.1 实验数据49
  • 5.3.2 实验评价指标49-50
  • 5.3.3 实验设计及结果分析50-51
  • 5.4 本章小结51-52
  • 第六章 总结与展望52-54
  • 6.1 总结52
  • 6.2 展望52-54
  • 致谢54-56
  • 参考文献56-60
  • 附录A 攻读硕士学位期间发表论文60-62
  • 附录B 攻读硕士学位期间发表软件著作权62-64
  • 附录C 攻读硕士期间参与科研项目64

【相似文献】

中国期刊全文数据库 前1条

1 罗武骏;黄程韦;查诚;赵力;;越南语语音情感特征分析与识别[J];信号处理;2013年10期

中国重要会议论文全文数据库 前3条

1 张海云;张超静;毕玉德;;越南语文献中字母缩略语自动提取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 武氏惠;;浅谈汉语多音字对越南语翻译的影响——以“单”字为例[A];学行堂文史集刊——2013年第2期[C];2013年

3 林丽;毕玉德;;越南语给予类动词的语义结构和层级分类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国重要报纸全文数据库 前10条

1 实习生 黄一婧 记者 周仕兴;全国越南语口语大赛在邕举行[N];广西日报;2005年

2 陆勇;崇左打响越南语人才跨国劳务品牌[N];中国劳动保障报;2008年

3 本报记者 曹植勤 实习生 侯少华 邓芳;越南语里的中国文化[N];南宁日报;2008年

4 唐光福;加强技能培训 提升业务能力[N];边防警察报;2010年

5 记者 郑雅邋实习生 刘小灵 袁晶;把中越语言文化研究向前推进[N];南宁日报;2007年

6 本报记者 伍建青;教育交流浇灌友谊之花[N];广西日报;2010年

7 黄志辉 班绍长;一口流利越南语 边贸派上大用场[N];中国劳动保障报;2013年

8 周汉青 本报记者 陈典宏;中士伍新海边境线上的“金牌翻译”[N];解放军报;2010年

9 谢莉丽;越南语毕业生火爆东盟[N];广西日报;2004年

10 通讯员 海仁;海南特招俄语和越南语专业公务员[N];中国人事报;2008年

中国博士学位论文全文数据库 前5条

1 武忠定;越南语核心词研究[D];华中科技大学;2012年

2 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年

3 阮氏玉华;越南语佛教词语研究[D];华中科技大学;2011年

4 阮大瞿越(Nguy(?)n (?)i C(?) Vi(?)t;十七世纪越南汉字音(A类)研究[D];北京大学;2011年

5 阮氏黎心;汉越人体名词隐喻对比研究[D];华东师范大学;2011年

中国硕士学位论文全文数据库 前10条

1 阮武琼芳;汉越词及汉越音在新时期越南语中的实践价值[D];首都师范大学;2007年

2 徐淑媛;越南语问候语研究[D];广西民族大学;2015年

3 陈氏青日;越南语与汉语拟声词对比研究[D];广西民族大学;2014年

4 莫媛媛;汉越双语词语对齐方法研究[D];昆明理工大学;2015年

5 陈氏贤;汉语副词“都”与越南语对应词对比研究和偏误分析[D];福建师范大学;2015年

6 颜伟光(NHAN VI QUANG);越南语注释的汉语教材中同译动词的研究[D];福建师范大学;2015年

7 庞纳敏;新HSK六级词汇汉越比较研究[D];广西大学;2015年

8 阮氏庄;汉越介词对比研究及越南学生使用汉语介词的调查分析[D];东北师范大学;2015年

9 范功名(Pham Cong Danh);汉—越语短语语序与正负迁移研究[D];河北师范大学;2015年

10 黎明柱子;汉越词:类别与越化[D];广东外语外贸大学;2015年


  本文关键词:汉越新闻观点句抽取与聚类方法研究,由笔耕文化传播整理发布。



本文编号:426404

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/ydyl/426404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e2f73***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com