Web表格的实体列发现算法
本文选题:Web表格 + 实体列 ; 参考:《计算机工程》2017年12期
【摘要】:针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。
[Abstract]:To solve the problem that the machine can not understand the semantic information of Web tables, traditional entity column discovery methods usually rely on header information and knowledge base to find entity columns, which is not suitable for Web tables without header. In this paper, an entity column discovery algorithm based on the approximate dependency between column values and canonical Web table entity column discovery is proposed, which can annotate the entity column of the table without or without the complete header or even the multi-entity list lattice. The intrinsic approximate functional dependencies among the attributes of the Web table are detected from the attribute values in the Web table. According to the characteristics of the Web table, the noise function dependency is deleted, and the entity column of the Web table is obtained through the normalization of the function dependency set. Compared with the algorithm using knowledge base for entity column detection, the algorithm does not rely on header information, and the recall rate and accuracy are increased by 3% and 5%, and the applicability of the algorithm is stronger.
【作者单位】: 北京交通大学计算机与信息技术学院;
【基金】:国家自然科学基金(61370060)
【分类号】:TP301.6
【相似文献】
相关期刊论文 前10条
1 李广洲,丁金芳,邓海山;基于Web的化学计算机化自适应测验系统的实现[J];计算机与应用化学;2002年05期
2 赵松林;基于Web服务的企业应用集成[J];微型机与应用;2003年08期
3 宋平;;基于Web服务的企业应用集成[J];福建电脑;2007年10期
4 彭玉华;;基于Web的学生信息管理系统的设计与实现[J];民营科技;2010年09期
5 ;借会献技——国际软件博览会中心议题web计算及应用[J];每周电脑报;1997年43期
6 向剑锋;;基于Web的企业信息管理系统安全方案[J];信息与电脑(理论版);2013年11期
7 张彩虹;;分布式虚拟现实系统Web服务器的设计与实现[J];计算机光盘软件与应用;2014年05期
8 黄建德;黄其标;;基于WEB的学生信息管理系统的研究与构建[J];计算机光盘软件与应用;2014年02期
9 黄廷辉,朱英;一种基于WEB的车辆调度管理系统[J];桂林电子工业学院学报;2000年03期
10 李陶深,刘波,杨柳,严毅;基于Web的多媒体档案管理信息系统设计与实现[J];广西科学院学报;2000年S1期
相关会议论文 前10条
1 王卫;;基于Web的数据库应用[A];第十八届中国(天津)’2004IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2004年
2 张默;廖湖声;杜金莲;;基于Web服务的开放式地理信息系统的研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年
4 郑菊艳;续爱民;;基于WEB模式的科研项目管理系统的设计与实现[A];2012年MIS/S&A学术交流会议论文集[C];2012年
5 于莉莉;张毅;;基于Web的人力资源管理系统研究与设计[A];2008全国制造业信息化标准化论坛论文集[C];2008年
6 刘颖;;基于Web的学生信息管理系统的设计与实现[A];2008年计算机应用技术交流会论文集[C];2008年
7 靳忠;李横;李萌;;ASP.NET中动态表格的实现[A];全国ISNBM学术交流会暨电脑开发与应用创刊20周年庆祝大会论文集[C];2005年
8 粟智;;基于Web技术下的分析实验室计算机网络管理系统的开发与设计[A];2003年药物分析论坛“热分析在药物分析中的应用”专题学术研讨会论文集[C];2003年
9 张慧;李学庆;;基于模型驱动的表格识别[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 胡新平;董建成;;基于Web的远程医疗会诊系统[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
相关重要报纸文章 前10条
1 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年
2 王雅丽;博客社区齐上阵 银行借Web 2.0拉拢未来客户[N];中国计算机报;2008年
3 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
4 本报记者 徐恒;手机浏览器:竞争不断加剧 Web大势所趋[N];中国电子报;2009年
5 讯源;企业引入Web 2.0的5项忠告[N];计算机世界;2007年
6 迅源;企业为何害怕Web 2.0?[N];计算机世界;2007年
7 河南省文物考古研究所 北京大学考古文博学院 张海 方燕明;以WEB和3S技术为支持的南水北调禹州段考古区域系统调查取得初步成果[N];中国文物报;2012年
8 王磊;如何通过Web 2.0赢取客户[N];中国计算机报;2008年
9 于翔;Web应用安全任重道远[N];网络世界;2008年
10 江苏 罗松林;Word 2000表格中的计算方法[N];中国电脑教育报;2001年
相关博士学位论文 前9条
1 黄治虎;基于网页信息和图像特征的Web图像检索研究[D];重庆大学;2015年
2 张璞;Web评论文本情感分类方法研究[D];重庆大学;2015年
3 刘维东;Web短文本知识关联模型及其语义连贯计算方法[D];上海大学;2016年
4 孙慧峰;基于协同过滤的个性化Web推荐[D];北京邮电大学;2012年
5 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
6 史广顺;文档图像中表格结构的自动定位与分析[D];南开大学;2003年
7 孙涛;面向市场情报分析的Web实体事件融合问题研究[D];山东大学;2014年
8 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
9 韩志刚;地理超媒体数据模型及Web服务研究[D];河南大学;2011年
相关硕士学位论文 前10条
1 张锐;基于Web技术下的出差管理系统[D];西安工业大学;2015年
2 游维;基于Rest的Web业务系统日志采集与分析系统的研究与开发[D];山东大学;2015年
3 陶莹昌;基于Web的校园二手图书拍卖平台的设计与实现[D];西华师范大学;2015年
4 周赢;基于WEB的绩效管理系统的设计与实现[D];电子科技大学;2015年
5 吴朝云;基于eyeOS的Web操作系统云存储研究[D];电子科技大学;2014年
6 林岚;基于WEB的单位工资管理系统设计与实现[D];电子科技大学;2014年
7 武志国;基于Web的人力资源管理系统设计与实现[D];电子科技大学;2014年
8 王雁;基于WEB的三维动画素材管理系统的设计与实现[D];电子科技大学;2013年
9 张灵钰;基于web平台的高校学生工作管理系统的设计与实现[D];电子科技大学;2013年
10 冯庚;基于WEB的智能油库信息管理系统设计与实现[D];电子科技大学;2014年
,本文编号:1896365
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1896365.html