当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎的双语混合网页识别新方法

发布时间:2019-02-25 10:17
【摘要】:该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
[Abstract]:This paper presents a new method of obtaining a bilingual web page from a result web page returned from a search engine, which is divided into two tasks. The first task is to automatically detect and collect data records in the results web page returned by the search engine. This step identifies a useful record summary by a method of clustering and provides an effective feature for the validation and acquisition of the next task, the high-quality, bilingual hybrid web page. In this paper, the verification of the bilingual mixed web page is regarded as a valid classification problem, and the method does not depend on the specific domain and the search engine. Based on the results of the two 516 retrieval results collected from the search engine and identified by the manual, the accuracy rate of 81.3% and the recall rate of 94.3% were obtained in this paper.
【作者单位】: 苏州大学计算机科学与技术学院;
【基金】:国家自然科学基金项目资助(61003152;60970057;60873105)
【分类号】:TP393.092

【共引文献】

相关期刊论文 前10条

1 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期

2 徐正光,王淑盛,刘冀伟,王志良,史立峰;基于主成分分析的核Fisher判别方法在油水识别中的应用[J];北京科技大学学报;2005年01期

3 吴德会;王晓红;;基于SVM的传感器动态模型辩识方法[J];传感技术学报;2006年03期

4 常玉清,王福利,王小刚,吕哲;基于支持向量机的生物发酵过程软测量建模[J];东北大学学报(自然科学版);2005年11期

5 吕干云;程浩忠;郑金菊;汪晓东;;基于S变换和多级SVM的电能质量扰动检测识别[J];电工技术学报;2006年01期

6 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期

7 李亚伟;陈守煜;韩小军;;基于支持向量机SVR的黄河凌汛预报方法[J];大连理工大学学报;2006年02期

8 陶亮,庄镇泉;基于小波分解和支持向量机的准正面人脸识别方法[J];电路与系统学报;2003年06期

9 吕干云,程浩忠,董立新,翟海保;基于多级支持向量机分类器的电力变压器故障识别[J];电力系统及其自动化学报;2005年01期

10 潘峰,程浩忠,杨镜非,张澄,潘震东;基于支持向量机的电力系统短期负荷预测[J];电网技术;2004年21期

相关会议论文 前10条

1 LI Yawei~a CHEN Shouyu~a XU Dawei~b a School of Civil and Hydraulic Engineering; b 21~(st) Century Development Research Center Dalian University of Technology,Dalian 116024,China;The Support Vector Machine Technique for Concrete Adherence Strength Prediction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年

2 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;A Wavelet Kernel for Support Vector Machine Based on Frame Theory[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年

3 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;Support vector machines for multi-component gases classification with wavelet features extraction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年

4 Hirotaka Nakayama;Yeboon Yun;;REGRESSION BY SUPPORT VECTOR MACHINES AND ITS APPLICATIONS TO ENGINEERING DESIGN[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年

5 Yeboon Yun;Hirotaka Nakayama;Min Yoon;;MULTI-OBJECTIVE OPTIMIZATION BASED ON ASPIRATION LEVELS AND APPROXIMATION OF PARETO FRONTIER[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年

6 SUN Jin-wen, YANG Jian-wu, LU Bin, XIAO Jian-guo~+ National Key Laboratory for Text Processing. Institute of Computer Science and Technology. Peking University, Beijing 100871, China;Incremental Training for SVM-Based Classification with Keyword Adjusting[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年

7 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒计算理论国际论坛(2006)论文集[C];2006年

8 Yinshan Jia , Chuanying Jia, Hongwei Qi School of Information Technology, Liaoning University of Petroleum and Chemical Technology, Fushun 113001, China Dalian Maritime University, Dalian 116026, China Fushun Ethylene Chemical Co. Ltd., Fushun 113004, China;Application of Weighted Support Vector Machines to Network Intrusion Detection[A];第四届电子商务国际会议论文集(Ⅱ)[C];2004年

9 Jia Yinshan1,2, Jia Chuanying2, Ma Heng2 (1.School of Information Technology, Liaoning University of Petroleum and Chemical Technology, Fushun, China 113001; 2.Dalian Maritime University, Dalian, China 116026);Auto-Weighted Support Vector Machines for Training Sets with Multi-Duplicate Samples[A];2004 7~(th) International Conference on Signal Processing Proceedings[C];2004年

10 Deng Haojiang, Du Limin, Wan Hongjie (SITR, Institute of Acoustics, Chinese Academy of Science, Beijing China 100080);Combination of likelihood scores using linear and SVM approaches for text-independent speaker verification[A];2004 7~(th) International Conference on Signal Processing Proceedings[C];2004年

相关博士学位论文 前10条

1 陆阳;二进神经网络规则提取方法研究[D];合肥工业大学;2002年

2 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年

3 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年

4 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年

5 王亮申;图像特征提取及基于内容图像数据库检索理论和方法研究[D];大连理工大学;2002年

6 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年

7 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年

8 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年

9 庾农;基于形态学理论的目标检测技术[D];中国人民解放军国防科学技术大学;2000年

10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年

相关硕士学位论文 前10条

1 姜绍君;与文本有关的说话人识别方法的研究[D];大连理工大学;2001年

2 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年

3 刘学军;键盘用户身份验真与加权主分量分类器[D];南京航空航天大学;2002年

4 冯洪海;基于粗糙集和支持向量机的多值分类算法[D];河北农业大学;2002年

5 姬水旺;强噪声和类间重叠数据下支持向量机学习的研究[D];武汉科技大学;2002年

6 李春光;自适应信号处理的神经网络方法[D];电子科技大学;2002年

7 阚忠良;数字图书馆中基于结构和内容的文本信息检索技术的研究[D];黑龙江大学;2002年

8 刘占平;并行数字图书馆系统中人机交互系统的设计与实现[D];黑龙江大学;2002年

9 顾先睿;并行数字图书馆系统中数据的分布、加载和维护[D];黑龙江大学;2002年

10 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年

【相似文献】

相关期刊论文 前10条

1 肖继海;崔晓红;桑莉君;;基于Web挖掘的个性化推荐模型[J];福建电脑;2011年05期

2 东兴;贾宇波;王义;范红丹;;Web挖掘技术在网络结构优化中的应用研究[J];工业控制计算机;2011年08期

3 ;[J];;年期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前8条

1 易虹;许德刚;;Web数据挖掘的研究与应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

2 吴珊;杨桦;;基于日志挖掘的Web预取模型[A];2006年电气工程教育专业委员会年会论文集[C];2006年

3 习慧丹;;Web日志挖掘探析[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年

4 王磊;王丰辉;郑康锋;杨义先;;基于Web挖掘技术的漏洞收集系统研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

5 袁冠;夏士雄;张磊;李月娥;肖经验;;基于兴趣度的Web用户聚类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

6 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

7 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

8 孙铁利;教巍巍;;基于马尔科夫模型的用户兴趣导航模型系统(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年

相关博士学位论文 前3条

1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

2 阮备军;Web使用挖掘若干关键问题研究[D];复旦大学;2004年

3 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年

相关硕士学位论文 前10条

1 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年

2 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年

3 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年

4 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年

5 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年

6 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年

7 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年

8 陈敏;基于Web使用挖掘的知识发现研究[D];合肥工业大学;2005年

9 窦赫男;序列模式挖掘在网站可用性分析研究上的应用[D];大连海事大学;2006年

10 王浩川;Web挖掘与个性化信息服务[D];郑州大学;2003年



本文编号:2430068

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2430068.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f33d0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com