基于最大熵模型的柬英平行网页获取
本文关键词:基于最大熵模型的柬英平行网页获取 出处:《计算机工程》2016年05期 论文类型:期刊论文
更多相关文章: 最大熵模型 柬埔寨语—英语 平行网页 平行语料库 余弦相似性
【摘要】:由于平行网站的异构性和复杂性,如何自动有效获取双语平行网页以及提高平行网页的质量是构建语料库的关键问题。为此,应用最大熵模型,将平行网页的识别问题看作候选网页对的分类问题,对平行网页的获取方法进行改进。利用基于标题余弦相似性的方法或数据库查询的方法发现候选平行网页对。根据网页内容及候选网页对间余弦相似度特征和最大熵模型训练的分类器对平行网页进行识别。在特征选取上,提取网页的篇章结构特征、词汇化比例特征与页面元素特征等基本特征,并应用TF-IDF算法与余弦相似性提取文档向量的余弦相似度特征。实验结果表明,所提方法可有效提高双语网站中平行网页的召回率和准确率,所获取平行网页的准确率和召回率分别为98%,94%。
[Abstract]:Due to the heterogeneity and complexity of parallel websites, how to automatically obtain parallel pages automatically and improve the quality of parallel pages is a key problem in the construction of corpus. Therefore, the maximum entropy model is applied. The recognition problem of parallel web pages is considered as the classification problem of candidate page pairs. The method of obtaining parallel pages is improved. The candidate parallel page pairs are found by using the method based on title cosine similarity or database query. The features of cosine similarity and the most common features of candidate pages are obtained according to the content of the page and the feature of cosine similarity between candidate web pages. The classifier trained by large entropy model recognizes parallel pages and selects features. The text structure features, lexicalization scale features and page element features of the web page are extracted. The TF-IDF algorithm and cosine similarity are used to extract the cosine similarity of document vectors. The experimental results show that the proposed method can effectively improve the recall rate and accuracy of parallel pages in bilingual websites. The accuracy and recall rate of parallel pages are 98 and 94 respectively.
【作者单位】: 上海师范大学语言研究所;云南省计算机技术应用重点实验室;云南民族大学东南亚南亚语言文化学院;昆明理工大学信息工程与自动化学院;
【基金】:国家自然科学基金资助项目“柬埔寨语命名实体识别及汉柬双语语料库构建方法研究”(61462055) 云南省计算机技术应用重点实验室开放基金资助项目“汉柬双语语料库构建及柬埔寨语词法分析方法研究”
【分类号】:TP391.1;TP393.092
【正文快照】: 中文引用格式:莫源源,潘丽同,严馨,等.基于最大熵模型的柬英平行网页获取[J].计算机工程,2016,42(5):194-200.英文引用格式:Mo Yuanyuan,Pan Litong,Yan Xin,et al.Khmer-English Parallel Web Page Extraction Based onM aximum Entropy M odel[J].Computer Engineering,2016
【相似文献】
相关期刊论文 前10条
1 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
2 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
3 谢法奎;张全;;基于最大熵模型的语义块切分[J];计算机工程与应用;2009年26期
4 樊娜;蔡皖东;赵煜;;基于最大熵模型的观点句主观关系提取[J];计算机工程;2010年02期
5 葛斌;封孝生;谭文堂;肖卫东;;基于多层最大熵模型的句子主干分析[J];计算机科学;2010年12期
6 方明;刘培玉;;基于最大熵模型的评价搭配识别[J];计算机应用研究;2011年10期
7 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
8 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
9 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
10 余正涛,樊孝忠;基于最大熵模型的汉语问句语义组块分析[J];计算机工程;2005年17期
相关会议论文 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 王凯华;李济洪;张国华;王瑞波;;基于最大熵模型的中文阅读理解问答系统技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 游斓;周雅倩;黄萱菁;吴立德;;基于最大熵模型的QA系统置信度评分算法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关博士学位论文 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
相关硕士学位论文 前10条
1 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
2 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
3 付琳;利用非广延最大熵模型进行文本分类[D];天津大学;2009年
4 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
5 谭文堂;基于统计模型的汉语句子主干分析[D];国防科学技术大学;2008年
6 王梦;基于主题情感纺一最大熵模型的观点挖掘研究[D];华中师范大学;2015年
7 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
8 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
9 高峰;基于最大熵模型的不良文本识别方法研究[D];山西大学;2009年
10 郑逢强;本体在名实体信息抽取中的应用研究[D];哈尔滨工业大学;2009年
,本文编号:1403051
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1403051.html