基于最大熵分类器的Deep Web查询接口自动判定
【图文】:
3.2 问题定义一个查询接口( 如图 1 所示) 通常包含一些表单控件让用户输入查询信息, 如文本框( textbox) 、单选按钮( radio button) 、复选框( checkbox) 和下拉列表框( selection list) 等控件。每个控件一般都对应一个标签( 一个描述文本) , 每个控件可以有一个或多个属性值( value) 。逻辑上看, 一个控件和它关联的标签构成了一个属性( attribute) , 对应了 Deep Web 后台数据库中的一个字段。而一个属性包含一个标签, 一个或多个表单控件。例如, 图 1 中 Author 属性有 4 个表单控件包括 1 个文本框和 3个单选按钮。属性中的标签可以看作属性的名称( attribute134
验中可以达到至少 93%的准确性。但这些方法还有一些不完善的地方, 首先它们还不能把代表 Web 数据库的查询接口与搜索引擎区的查询接口分开来, 这就需要进一步总结这二者之间可区分的特征。另外该工作只是根据 FORM 表单在页面中的源代码总结查询接口的特征, 其实还有很多的特征可以利用,比如查询接口在页面中的视觉布局信息、所在页面的频繁词汇信息等。基于最大熵分类器决策过程如图 5 所示。
【作者单位】: 江苏省计算机信息处理技术重点实验室 江苏省计算机信息处理技术重点实验室 江苏省计算机信息处理技术重点实验室
【基金】:国家自然科学基金( the National Natural Science Foundation of China under Grant No.60673092) 2005年度教育部科研重点项目(the Key Project of Chinese Ministry of Education under Grant No.205059) 2006 年江苏省“六大人才高峰”项目( the“Six Talent Peak”Project of Jiangsu Province under Grant No.06-E-037) 2006 年度江苏省软件和集成电路业专项经费项目(the Specialized Fund Pro-ject for the Software and IC of Jiangsu Province in 2006 under Grant No.[2006]221- 41) 2007 年江苏省重点实验室开放基金项目(theProject of Jiangsu Key Laboratory of Computer Information Processing Technology)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前1条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【共引文献】
相关期刊论文 前6条
1 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
2 贾宁;;使用概念基元特征进行自动文本分类[J];计算机工程与应用;2007年01期
3 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
4 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[J];中文信息学报;2007年01期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
6 钱晶;张杰;张涛;;基于最大熵的汉语人名地名识别方法研究[J];小型微型计算机系统;2006年09期
相关博士学位论文 前5条
1 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年
2 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
相关硕士学位论文 前10条
1 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
4 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
5 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
6 司广涛;基于最大熵模型的垃圾邮件过滤系统研究[D];苏州大学;2006年
7 修宇;方向性聚类技术及其应用[D];江南大学;2006年
8 董学春;文本分类及其在涉密资料管理中的应用[D];合肥工业大学;2006年
9 杨鹏;面向领域自然语言的文本自动分类及其在产品设计中的应用[D];西安电子科技大学;2007年
10 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
【相似文献】
相关期刊论文 前10条
1 李明;李秀兰;;基于启发式信息的Deep Web结果模式获取方法[J];计算机应用研究;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前1条
1 林敏;陈仲华;彭世峰;郭奕杉;骆s,
本文编号:2536047
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2536047.html