当前位置:主页 > 经济论文 > 技术经济论文 >

基于智能网关的用户Web信息采集与分析系统

发布时间:2018-05-08 12:50

  本文选题:Web信息采集 + 关键词提取 ; 参考:《山东大学》2016年硕士论文


【摘要】:信息时代的到来使互联网成为个人及家庭最重要的信息来源,越来越多的用户通过各种智能终端设备接入互联网,这种信息获取和交流的方式已逐渐成为当今时代的主流。紧随而来的各种快捷便利的服务软件使各大互联网公司逐渐意识到用户信息作为一种战略资产具有极高的经济价值。因此,把握海量数据背景下的用户Web信息,分析用户行为习惯无论是对学术研究的推动还是对企业客户资源的维系和发展都是具有着重要的意义。目前,分析用户行为的数据主要来源是服务器用户日志和浏览器cookie。前者是用户访问目标网站时,网站记录用户相关行为,按特定格式生成服务器日志;后者则通过网站上加挂的脚本将用户信息发送给后台服务器端。这两种方法都依赖特定的网站,比较理想的情况是用户访问不同网站时都能拿到用户的访问数据,而路由器作为家庭网络链接和数据分发的中心,在家庭组网中占据着至关重要的位置。针对路由器的这种优势,本论文设计并实现了一种基于智能路由器的用户Web信息采集和分析系统,重点解决了用户信息采集方式的局限性和采集信息的片面性问题。该系统分为网关和后台两部分,网关侧完成用户ID和浏览网址的提取与传输,后台服务器接收网关侧采集的数据后,主要完成相应Web界面的正文和关键词的提取、页面浏览时间统计、子链接爬取与相关度计算以及文本主题分类等信息的采集与分析。本论文创新点主要包括以下五个方面:(1)分析了系统应用的特有环境要求和应用场景,结合新闻主题类和商品购物类网站的网页结构特点,提出了文本密度与多特征值相结合的Web正文抽取算法,既提高了网页正文的抽取速度又保证了抽取的准确率。(2)提出一种基于统计、结构、语言分析相结合的TF-IDF文本关键词提取算法,该算法考虑了词长、词跨度等特征对关键词提取的影响,克服了传统TF-IDF提取算法完全基于词频统计的缺陷。(3)设计了一种网络爬虫的主题爬取策略,基于提出的文本关键词提取算法和VSM文本相似度计量原理,实现了两层网页的子链接爬取与相关度计算。(4)提出一种卡方值加权的贝叶斯分类算法,该算法更加强调在文本分类过程中类别与特征之间的相关性关系,提高了文本分类的准确率。(5)提出一套用户Web信息采集与分析系统的整体设计方案,并通过编写程序完成整个系统实现,最后在基于OpenWrt智能路由的家庭局域网内测试了该方案的可行性。
[Abstract]:With the advent of the information age, the Internet has become the most important source of information for individuals and families. More and more users connect to the Internet through various intelligent terminal devices. This way of information acquisition and communication has gradually become the mainstream of the times. All kinds of fast and convenient service software make the major Internet companies realize that user information has high economic value as a strategic asset. Therefore, it is of great significance to grasp the user Web information under the background of massive data and analyze the behavior habits of users, whether it is the promotion of academic research or the maintenance and development of enterprise customer resources. At present, the main sources of data for analyzing user behavior are server user log and browser cookie. The former is when the user visits the target website, the website records the user's related behavior and generates the server log according to the specific format; the latter sends the user information to the background server through the script added on the website. Both approaches rely on specific sites, ideally where users can access data when they visit different sites, while routers act as a hub for home network links and data distribution. In the home network occupies the vital position. Aiming at the advantages of routers, this paper designs and implements a user Web information acquisition and analysis system based on intelligent router, which focuses on solving the limitation of user information collection and the one-sidedness of collecting information. The system is divided into two parts: gateway and background. The gateway side completes the extraction and transmission of user ID and browsing web site. After receiving the data collected from the gateway side, the background server mainly completes the extraction of the text and key words of the corresponding Web interface. Page browsing time statistics, sub-link crawling and correlation calculation, text topic classification and other information collection and analysis. The innovation of this paper mainly includes the following five aspects: 1) analyzing the special environmental requirements and application scenarios of the system application, combining the web structure characteristics of the news subject category and the commodity shopping website. In this paper, a Web text extraction algorithm combining text density with multiple eigenvalues is proposed, which not only improves the extraction speed of web pages, but also ensures the accuracy of extraction. This algorithm combines language analysis with TF-IDF text keyword extraction algorithm, which takes into account the influence of word length, word span and other features on keyword extraction. This paper overcomes the shortcoming of traditional TF-IDF extraction algorithm based entirely on word frequency statistics. It designs a topic crawling strategy for web crawlers, based on the proposed text keyword extraction algorithm and the principle of VSM text similarity measurement. In this paper, we implement sub-link crawling and correlation calculation of two-layer web pages. We propose a chi-square weighted Bayesian classification algorithm, which emphasizes the correlation between category and feature in the process of text classification. Improve the accuracy of text classification. (5) put forward a set of user Web information collection and analysis system overall design scheme, and complete the whole system by writing a program. Finally, the feasibility of the scheme is tested in the home LAN based on OpenWrt intelligent routing.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP274

【相似文献】

相关期刊论文 前10条

1 邓福庆;信息理论与实践的新成果──简评《信息采集》[J];求是学刊;1996年01期

2 刘燕德;周衍华;赵文星;刘德力;;数字化果园信息采集方法的研究进展[J];中国农机化学报;2014年02期

3 陈予雯;;信用体系下的个人信息采集与共享新探[J];内江科技;2006年07期

4 刘家真;许洁;;建立基于共享的政务信息采集机制的对策建议[J];信息化建设;2007年07期

5 姜丽华;张宏斌;;基于Agent的个性化信息采集与处理系统[J];农业网络信息;2007年07期

6 王嵩;王兵;;铁路集装箱运输信息采集的研究与设计[J];铁路计算机应用;2008年07期

7 喻国明;;中国媒体奥运报道该打“高分”[J];新闻与写作;2008年09期

8 孙晓明;;舰船数据信息采集方法研究[J];科技信息;2009年12期

9 单杰;;浅谈农业信息采集与开发[J];黑龙江科技信息;2009年30期

10 李雪竹;宋子东;;信息采集协议的时效性分析[J];宿州学院学报;2013年03期

相关会议论文 前10条

1 李静;张建;李淼;胡泽林;杨巍;张浩东;;便携式农田信息采集与管理系统的设计[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

2 谭亮;王荣成;;基于船舶网络的信息采集性能分析与系统优化[A];2008年MIS/S&A学术交流会议论文集[C];2008年

3 周洪清;;客户动销信息采集工作的思考[A];湖北省烟草学会2007年学术年会论文集[C];2007年

4 刘丽丽;;一种用于加油站信息采集的中控机设计[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

5 蔡义华;刘刚;;便携式农田信息采集与无线传输系统研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

6 王坤;郭起云;郭光;;大数据时代档案信息采集新思路[A];2013年海峡两岸档案暨缩微学术交流会论文集[C];2013年

7 罗海勇;李锦涛;赵方;朱珍民;林权;;温室无线测控网络信息采集分系统设计研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

8 陈渝光;施海;游四海;廖仕利;;基于车载网络的多模态信息采集[A];四川省电工技术学会第九届学术年会论文集[C];2008年

9 高锦超;柯赓;;基于网络的地理信息采集和管理系统[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年

10 陈凌;张阳阳;陈宏;刘红漫;;《电光与控制》发行工作中的问题及解决办法[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年

相关重要报纸文章 前10条

1 李琳 卢庆红;缙云聘请百名“蜜蜂”式信息采集员[N];丽水日报;2007年

2 沈雪;福泉把派出所基础信息采集纳入“政府工程”[N];人民公安报;2007年

3 刘明军 夏俊涛;河南潢川:种好基础信息采集“试验田”[N];人民公安报;2009年

4 王宇航邋陈建琦;云南蒙自:标准化信息采集室实现“无缝隙”覆盖[N];人民公安报;2008年

5 记者 陈磊;陕西年内将建成500个标准化刑侦信息采集室[N];人民公安报;2010年

6 记者 阮仕喜;陕西上半年将建成500个刑侦信息采集室[N];人民公安报;2011年

7 何英彩;册亨公安提前二月完成基础信息采集录入任务[N];黔西南日报;2008年

8 吴苏 杨一弘;推进信息采集 筑牢基础环节[N];黑龙江经济报;2010年

9 李晓楠、杨勇;8650部队信息采集员制度拓宽民主渠道[N];人民武警报;2011年

10 本报首席记者 彭文辉 本报记者 方晓;信息采集:“三网”建设取得实效的生命线[N];宜春日报;2013年

相关博士学位论文 前2条

1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前10条

1 欧莉;能源在线监测系统中电力信息采集器的设计与实现[D];东华理工大学;2016年

2 彭寿钧;基于智能网关的用户Web信息采集与分析系统[D];山东大学;2016年

3 俞浩亮;互联网不良信息采集抽取及识别技术研究[D];昆明理工大学;2016年

4 冯乙新;智能交通气象信息精细化监测系统设计[D];南京信息工程大学;2016年

5 司晨;城市规划管理信息采集的问题与对策研究[D];云南大学;2016年

6 周文杰;基于iOS的棉蚜虫害信息采集与主动服务系统研发[D];石河子大学;2016年

7 杨凡;面向移动设备的信息采集和处理研究与实现[D];西北大学;2012年

8 董飞;用电信息采集一体化建设研究[D];大连海事大学;2011年

9 张巧珍;基于价值链的企业信息采集研究[D];华中师范大学;2013年

10 王凌霄;身份证阅读器信息采集与处理系统的设计与实现[D];华中科技大学;2012年



本文编号:1861475

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/1861475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e00f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com