基于网页信息和分词的中文机构名全称和简称提取方法
本文选题:机构名简称提取 + 机构名全称提取 ; 参考:《计算机应用研究》2017年04期
【摘要】:搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1 287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。
[Abstract]:When the search engine deals with the corresponding relationship between full name and abbreviation, it can only be added manually in the past, resulting in short name omission, low recall rate of search results, and so on.Therefore, an automatic method for obtaining the full name and abbreviation of the mechanism is proposed.According to the source code of the first page of the website of the agency, the full name of the corresponding organization is extracted from the source code of the domain name address, and then the candidate abbreviation is extracted from the set of contextual features of the organization name, and the similarity between the candidate abbreviation and the full name is calculated finally.Through the experiments on 1 287 websites of organizations, the correct rate of full name extraction is 93.9, and the recall rate and accuracy rate are 85.3% and 90.8%, respectively. The experiment shows that the method is effective.
【作者单位】: 中国科学院大学;中国科学院计算机网络信息中心;中国互联网络信息中心;
【基金】:国家自然科学基金资助项目(61375039,61272433)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 王文轩;;基于构成模式的部队机构名识别[J];现代计算机(专业版);2013年34期
2 刘杰;;基于统计的中文机构名实体识别的研究[J];佳木斯大学学报(自然科学版);2010年03期
3 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
4 夏峗;李志蜀;;基于统计的中文机构名自动识别[J];四川大学学报(自然科学版);2009年03期
5 钟良伍;郑方;;基于中文机构名简称的检索方法研究[J];中文信息学报;2007年01期
6 韦向峰;张全;吴晨;袁毅;;中文问答系统中机构名的处理[J];计算机工程与应用;2008年07期
7 麦合甫热提;米日姑·肉孜;麦热哈巴·艾力;吐尔根·依布拉音;;基于语法语义知识的维吾尔文机构名识别[J];计算机工程与设计;2014年08期
8 冯丽萍;焦莉娟;;结合多特征的支持向量机中文组织机构名识别模型[J];现代计算机(专业版);2010年07期
9 胡万亭;杨燕;尹红风;贾真;刘利;;一种基于词频统计的组织机构名识别方法[J];计算机应用研究;2013年07期
10 陈慧;;中文组织机构名命名规范化问题刍议[J];人文丛刊;2011年00期
相关会议论文 前5条
1 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
2 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 雷静;张舵;冯霞;;基于构成模式的汉语机构名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
相关重要报纸文章 前5条
1 ;《全国文化机构名址录》面世[N];中国文化报;2003年
2 马文;《全国文化机构名址录》出版[N];中国文化报;2001年
3 记者 王俐君 通讯员 欧志红;湖南名址信息库建设强力启动[N];中国邮政报;2003年
4 记者 刘苏;2000多件证书展示证书文化[N];徐州日报;2010年
5 记者 刘朝君;组织机构名址库年内建成[N];中国邮政报;2003年
相关硕士学位论文 前10条
1 陈丹双;POI(Point of Interest)名称识别及其在对话导航系统中的应用[D];复旦大学;2013年
2 王树伟;面向金融文本的实体识别与关系抽取研究[D];哈尔滨工业大学;2014年
3 连誉舜;中文组织机构名检索系统的设计与实现[D];上海交通大学;2013年
4 刘璐;基于潜在语义分析与多特征融合的中文机构名识别[D];西北大学;2016年
5 万如;中文机构名识别的研究[D];大连理工大学;2008年
6 乌兰敖日格乐;中文军事组织机构名的识别[D];大连理工大学;2010年
7 凌雅娟;新闻文本中的中文机构名识别和机构关系抽取研究[D];华东师范大学;2013年
8 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
9 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
10 米日姑·肉孜;维吾尔文机构名识别研究[D];新疆大学;2013年
,本文编号:1773518
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1773518.html