使用网络搜索引擎计算汉语词汇的语义相似度
本文关键词:使用网络搜索引擎计算汉语词汇的语义相似度 出处:《计算机技术与发展》2014年07期 论文类型:期刊论文
【摘要】:汉字词语的语义相似度计算是中文信息处理中的一个关键问题。文中利用网络搜索引擎提供的信息来计算汉语词对的语义相似性。首先通过程序访问搜索引擎,获取汉字词汇的搜索结果数,并依此实现了相似度计算模型WebPMI;然后描述了根据查询返回的文本片段进行语义相关性分析的模型CODC;最后,结合这个两个模型,给出了文中算法的伪代码。实验结果显示,文中的算法较好地利用了互联网信息,实现了一种较新的汉语词汇语义相似度计算方法,接近于利用词典提供的信息计算相似度的传统算法。
[Abstract]:The semantic similarity calculation of Chinese characters is a key problem in Chinese information processing. This paper uses the information provided by web search engines to calculate the semantic similarity of Chinese word pairs. The number of search results of Chinese words is obtained, and a similarity calculation model, WebPMI-based, is implemented. Then we describe the model of semantic correlation analysis based on the text fragment returned by the query. Finally, combining the two models, the pseudo code of the algorithm is given. The experimental results show that the algorithm in this paper makes good use of the Internet information, and realizes a new method for calculating semantic similarity of Chinese vocabulary. It is close to the traditional algorithm which uses the information provided by the dictionary to calculate the similarity.
【作者单位】: 武汉纺织大学传媒学院;
【基金】:湖北省自然科学基金(2013CFB310) 湖北教育科研项目(B2013205) 湖北省高等学校2013年省级大学生创新创业训练计划项目(2013CXZD027) 2013年武汉纺织大学大学生创新创业训练计划项目(2013CXXL008,2013CXXL009)
【分类号】:TP391.3
【正文快照】: 0引言词汇间语义相似度的研究一直是信息检索和自然语言处理的核心部分,对于汉语来说尤其如此。词汇之间的语义相似度在时间和领域范围内是经常变动的。比如说,在互联网上“苹果”经常是“苹果电脑”的意思,然而在大部分词典中苹果是没有这种意思的。一个用户在互联网上搜索“
【参考文献】
相关期刊论文 前9条
1 王桐;王磊;吴吉义;徐贺;;WordNet中的综合概念语义相似度计算方法[J];北京邮电大学学报;2013年02期
2 夏天;;汉语词语语义相似度计算研究[J];计算机工程;2007年06期
3 王春东;陈英辉;常青;邓全才;王怀彬;;基于特征相似度的贝叶斯网络入侵检测方法[J];计算机工程;2011年21期
4 李红莲,何伟,袁保宗;一种文本相似度及其在语音识别中的应用[J];中文信息学报;2003年01期
5 廖志芳;邱丽霞;谢岳山;樊晓平;;一种频率增强的语句语义相似度计算[J];湖南大学学报(自然科学版);2013年02期
6 魏凯斌;冉延平;余牛;;语义相似度的计算方法研究与分析[J];计算机技术与发展;2010年07期
7 冉婕;孙瑜;;语义检索中的词语相似度计算研究[J];计算机技术与发展;2011年04期
8 孙昌年;郑诚;夏青松;;基于LDA的中文文本相似度计算[J];计算机技术与发展;2013年01期
9 杨方颖;蒋正翔;张姗姗;;基于本体结构的语义相似度计算[J];计算机技术与发展;2013年07期
【共引文献】
相关期刊论文 前10条
1 李园白;崔蒙;杨阳;朱晓博;;证候相似性比较方法研究[J];中华中医药杂志;2012年02期
2 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
3 朱占辉;李红莲;;基于文音相似度的语音查号系统[J];电脑开发与应用;2006年02期
4 袁保宗,阮秋琦,王延江,刘汝杰,唐晓芳;新一代(第四代)人机交互的概念框架特征及关键技术[J];电子学报;2003年S1期
5 李剑;李金厚;;一种基于知网的概念相似度计算方法[J];工业控制计算机;2011年04期
6 王俊超;刘晨帆;徐明世;纪山;兰伟;;语义相似性度量技术在地名匹配研究中的应用[J];辽宁工程技术大学学报(自然科学版);2012年06期
7 张仰森;钟鼎;;基于SKCC与统计相结合的词语相似度计算方法[J];北京信息科技大学学报(自然科学版);2012年06期
8 毕海滨;黄宇光;;基于语义与SVM的中文实体关系抽取[J];福建电脑;2013年12期
9 李红莲;宋占岭;;基于文音相似度的语音查询系统的设计与开发[J];计算机工程与应用;2006年26期
10 傅鹤岗;徐晨霞;;基于知网的元搜索引擎多关键词检索研究[J];计算机工程与应用;2008年22期
相关会议论文 前4条
1 李红莲;潘建军;范京;;音节相似度及其在语音识别中的应用[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 何二宝;梁满贵;李俊杰;;智能电话号码语音查询系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
3 崔磊;陈清才;郭鸿志;王晓龙;;HowNet与维基百科知识融合中的义类属性自动构建方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 张冠元;林健;;一种针对餐馆评论的文本倾向性分析算法[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前10条
1 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
2 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
3 李园白;中医医案文献特殊性评价方法研究[D];中国中医科学院;2010年
4 李勤超;基于本体的地理信息语义转换模型与方法研究[D];解放军信息工程大学;2011年
5 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
6 刘紫玉;多专业领域本体的构建及语义检索研究[D];北京交通大学;2010年
7 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
8 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
9 王静;基于本体的中医文献诊疗信息的智能检索示范研究[D];中国中医科学院;2012年
10 张素芳;网络社区学术资源关联研究[D];南开大学;2012年
相关硕士学位论文 前10条
1 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
2 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
3 吴波;改进的编辑距离算法的研究及其在电子政务中的应用[D];电子科技大学;2011年
4 周倩;基于多值词汇语义相似度的SME模型改进[D];河南大学;2011年
5 吴全娥;汉语句子相似度计算及其在自动问答系统中的应用[D];西南大学;2011年
6 张红春;中文维基百科的结构化信息抽取及词语相关度计算[D];华中师范大学;2011年
7 李剑;基于分块的句子语义相似度研究[D];安徽工业大学;2011年
8 何亚;主观题辅助评分方法的研究与应用[D];中南大学;2010年
9 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
10 严羽;自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 梅翔;孟祥武;陈俊亮;徐萌;;一种基于语义关联的查询优化方法[J];北京邮电大学学报;2006年06期
3 赵文峰;孟祥武;陈俊亮;;信息提供类Web服务与RDF数据源的集成[J];北京邮电大学学报;2008年06期
4 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
5 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
6 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
7 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
8 王鹏浩,朱璇,张京涛;高性能语音拨号器的设计与实现[J];电子技术应用;2000年12期
9 李红莲,袁保宗,王春花;利用背景知识提高web语音浏览中的识别精度的方法[J];电子学报;2002年12期
10 李熙;徐德智;;基于WordNet的概念语义相似度研究[J];湖南科技学院学报;2008年12期
【相似文献】
相关期刊论文 前10条
1 顾榕,王小平,曹立明;一种基于潜在语义分析的查询扩展算法[J];计算机工程与应用;2004年18期
2 王惠敏;聂规划;付魁;;领域本体中基于多维特征的语义相似度算法研究[J];情报杂志;2008年10期
3 黄宏斌;刘志忠;张维明;邓苏;马丽丽;;基于层次本体模型(HOM)的语义相似度计算方法[J];系统工程与电子技术;2009年07期
4 吴飞珍;马文丽;王旺迪;陈启龙;郑文岭;;一种新的基因注释语义相似度计算方法[J];生物信息学;2010年01期
5 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
6 徐德智;C.Onyango;王怀民;;上位本体中语义相似度的计算及其实现[J];计算技术与自动化;2007年02期
7 张晓孪;王西锋;;FCA中的概念语义相似度计算[J];现代图书情报技术;2007年03期
8 周粉;夏幼明;;一种改进的基于知网的语义相似度计算方法[J];云南大学学报(自然科学版);2008年S2期
9 史斌;闫健卓;王普;方丽英;;基于本体的概念语义相似度度量[J];计算机工程;2009年19期
10 刘卫;刘金岭;;基于《知网》的词语语义相似度改进及应用[J];福建电脑;2010年05期
相关会议论文 前10条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 黄佳来;王立波;袁道敏;;基于语义相似度的查询扩展研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
3 刘晓平;沈冠町;;协同讨论观点影响度分析方法及其应用[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
4 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘立;余正涛;王蒙;毛存礼;郭剑毅;;结合词相关特征与流行学习的中文问句分类[A];第六届全国信息检索学术会议论文集[C];2010年
6 骆正华;;基于E-Chunk问句实例库问答系统的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陈雷明;邹欣;党德玉;;一种基于语义优化非单调推理的方法[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
相关博士学位论文 前10条
1 王俊华;基于不确定性理论的单词语义相似度度量[D];吉林大学;2014年
2 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
3 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
4 杨月华;基于领域知识模型的突发事件智能信息检索系统研究[D];北京邮电大学;2013年
5 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
6 潘建国;基于语义的用户建模技术与应用研究[D];上海大学;2009年
7 李宏伟;基于Ontology的地理信息服务研究[D];解放军信息工程大学;2007年
8 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
9 杨峰;本体映射关键技术研究[D];吉林大学;2011年
10 赵琼;基于视频和三维动作捕捉数据的人体动作识别方法的研究[D];中国科学技术大学;2013年
相关硕士学位论文 前10条
1 郑丽萍;本体映射的研究[D];山东科技大学;2005年
2 常晓环;基于概念图的语义检索方法研究[D];吉林大学;2009年
3 秦鹏;基于WordNet的本体匹配关键技术研究与实现[D];华东师范大学;2010年
4 郭嘉琦;领域本体的构建及其在信息检索中的应用研究[D];北京邮电大学;2007年
5 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
6 关淞元;本体匹配算法的研究[D];吉林大学;2009年
7 尹睿;基于语义相似度的论文文本聚类算法研究[D];大连理工大学;2009年
8 王曙光;基于蚁群的文本聚类算法的改进研究[D];大连理工大学;2006年
9 宗裕朋;基于本体的中文智能答疑系统研究与实现[D];上海交通大学;2007年
10 罗思明;基于语义相似度的汉语未登录动词语义框架识别[D];北京邮电大学;2008年
,本文编号:1440284
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1440284.html