Web挖掘研究综述
本文选题:机器学习 + 半结构化数据 ; 参考:《计算机科学》2001年11期
【摘要】:正 1 引言今天Web已成为信息发布、交互及获取的主要工具,Web上的信息量正以惊人的速度增加着,人们迫切需要能自动地从Web上发现、抽取和过滤信息的工具。同时,近年来,由于电子商务的快速发展,许多公司借助Internet进行在线交易,企业管理者需要分析大量的在线交易数据,从而发现用户的兴趣爱好及购买趋势,为商业决策风险投资等提供依据。具体来讲,当我们与Web交互时,常面临如下问题: 1.查询相关信息。这是查询触发的过程,我们希望从Web上找到关于VC~++编程指南的书,关于申办奥运会的信息,甚至关于爱滋病的报道等等。可以用搜索引擎如Yahoo Sohu等进行关键字查找,然而,今天的搜索引擎都有两个严重问题:低查准率会返回很多不相关的结果;低查全率有很多相关的文档找不到。
[Abstract]:Introduction 1. Today, Web has become the main tool for information release. The amount of information on the web is increasing at an alarming speed. People urgently need tools to automatically discover, extract and filter information from Web.At the same time, due to the rapid development of e-commerce in recent years, many companies use Internet to conduct online transactions. Enterprise managers need to analyze a large amount of online transaction data to find out users' interests and purchasing trends.Provides the basis for the business decision risk investment and so on.Specifically, when we interact with Web, we often face the following problems: 1.Query related information.This is a query triggered process. We hope to find a book on the VC ~ programming guide on Web, information on the bid for the Olympic Games, even reports on AIDS, and so on.Search engines such as Yahoo Sohu can be used for keyword search. However, today's search engines have two serious problems: low precision will return a lot of irrelevant results, and low recall can not find many related documents.
【作者单位】: 东南大学计算机科学与工程系 东南大学计算机科学与工程系 东南大学计算机科学与工程系 东南大学计算机科学与工程系
【基金】:国家自然基金(79970092)
【分类号】:TP393.09
【相似文献】
相关期刊论文 前10条
1 徐栋;;机器学习在网络攻击检测中的应用[J];河南科技;2011年13期
2 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[J];信息网络安全;2011年09期
3 陈朝晖;;一种基于DPI和DFI技术的应用识别系统[J];中国高新技术企业;2011年16期
4 戴磊;云晓春;张永铮;吴志刚;;一种基于TCM主动学习的P2P流识别技术[J];高技术通讯;2010年07期
5 李京;姜卫;张跟鹏;宋世延;;基于电子商务的个性化推荐系统研究[J];计算机与数字工程;2011年07期
6 邓莎莎;李嘉;;网页数据抽取中Wrapper的维护[J];上海电力学院学报;2011年04期
7 孙艳;周学广;;内容过滤技术研究进展[J];信息安全与通信保密;2011年09期
8 孙楠;张华伟;;一种新的用于数据挖掘工具的网页净化算法[J];郑州轻工业学院学报(自然科学版);2011年03期
9 辛洁;崔志明;赵朋朋;张广铭;鲜学丰;;基于MapReduce虚拟机的Deep Web数据源发现方法[J];通信学报;2011年07期
10 顾成杰;张顺颐;;基于改进SVM的网络流量分类方法研究[J];仪器仪表学报;2011年07期
相关会议论文 前10条
1 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
2 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 王腾蛟;唐世渭;杨冬青;刘云峰;;半结构化数据的局部精确模式提取方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 丁山山;陈世平;;智能Agent技术在个性化WEB信息代理中的应用研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 陈滢;张宜红;王能斌;;Web视图技术研究[A];第十六届全国数据库学术会议论文集[C];1999年
6 王静;杜小勇;王珊;;Web站点查询系统的研究和设计[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
8 许小林;唐文忠;原忠义;;电子邮件智能检测模型的研究[A];2006中国控制与决策学术年会论文集[C];2006年
9 杨武;王巍;张乐君;国林;云晓春;;一种动态自学习的高效入侵检测模型研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
相关重要报纸文章 前3条
1 阮光尘邋朱元春;多层构建邮件免疫机能[N];中国计算机报;2007年
2 沈生;多管齐下清理网上垃圾[N];中国计算机报;2004年
3 ;关注移动应用 诺基亚打造Nokia Access Mobilizer[N];网络世界;2003年
相关博士学位论文 前10条
1 左申正;基于机器学习的网络异常分析及响应研究[D];北京邮电大学;2010年
2 李战春;入侵检测中的机器学习方法及其应用研究[D];华中科技大学;2007年
3 何召卫;受限本体相似[D];北京邮电大学;2008年
4 柳斌;P2P流的测量与识别方法研究[D];华中科技大学;2008年
5 田新广;基于主机的入侵检测方法研究[D];国防科学技术大学;2005年
6 史兴键;安全强审计模型研究[D];西北工业大学;2006年
7 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
8 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
9 尹清波;基于机器学习的入侵检测方法研究[D];哈尔滨工程大学;2007年
10 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
相关硕士学位论文 前10条
1 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
2 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
3 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
4 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
5 蒋道霞;基于机器学习的入侵检测系统的设计与实现[D];南京理工大学;2005年
6 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
7 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
8 马金刚;基于向量空间的信息过滤关键技术研究[D];山东师范大学;2006年
9 成宝国;基于统计方法的垃圾邮件处理技术研究[D];西北大学;2006年
10 李笛;基于内容的垃圾邮件过滤方法研究[D];合肥工业大学;2008年
,本文编号:1762387
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1762387.html