基于Web的企业竞争情报收集技术研究
本文选题:竞争情报 + 主题爬虫 ; 参考:《大连理工大学》2012年硕士论文
【摘要】:随着信息技术的不断发展,越来越多的资源通过互联网呈现给用户,这给不少企业的情报收集带来了新的机遇;同时也使企业面临新的挑战,企业如何有效地从互联网中的海量信息资源中获取准确可靠的信息一时间成为研究的热点。通用搜索引擎可以解决一般用户的检索,但面对企业情报收集时在页面的及时性和个性化方面就不能满足用户的需求。本文旨在利用开源软件的优势,通过Web挖掘技术获取互联网中的信息情报,进而搭建和实现企业自动化情报收集平台,方便用户开展情报工作;同时提高企业获取情报的效率,提升企业的市场竞争力。 本文通过对企业竞争情报获取技术的研究分析,设计了一个企业自动化竞争情报收集系统,该系统主要解决用户在互联网中收集信息所面临的问题;同时为管理者提供了决策支持。具体工作如下 (1)本文首先指出企业开展竞争情报工作在经济全球化下的现实意义,阐明企业构建竞争情报系统的必要性,并指出目前市场上主流竞争情报软件的不足之处。 (2)从系统开发角度研究了Web信息收集中主题爬虫工作原理,爬虫种子的定制,Web文档预处理,字符编码,中文分词,页面格式化等一系列关键技术。 (3)深入研究了主题爬虫的体系结构,并根据第三方门户网站的页面特征对爬虫内部结构做了优化设计。 (4)针对在高质量数据源中获取的Web文档,利用一种改进的TF-IDF方法提取领域主题词,作为后期情报加工和分析的基础。改进的算法在主题词提取准确性方面有了较大提高。 (5)最后,根据本文研究的内容,我们设计开发了一个面向医药领域情报自动收集系统。该系统可以定制竞争对手网站页面,定期的收集信息并将信息转换为一定的格式呈现给情报工作人员。
[Abstract]:With the continuous development of information technology, more and more resources are presented to users through the Internet, which brings new opportunities for many enterprises to collect information, and also makes enterprises face new challenges. How to effectively obtain accurate and reliable information from the massive information resources in the Internet has become a hot research topic. General search engine can solve the retrieval of general users, but it can not meet the needs of users in the aspect of timeliness and individuation of pages in the face of enterprise intelligence gathering. The purpose of this paper is to make use of the advantage of open source software to obtain information in the Internet through Web mining technology, and then to build and realize the automatic information gathering platform of enterprises, which is convenient for users to carry out intelligence work, and at the same time to improve the efficiency of obtaining information by enterprises. Enhance the market competitiveness of enterprises. Based on the research and analysis of enterprise competitive intelligence acquisition technology, this paper designs an enterprise automated competitive intelligence gathering system, which mainly solves the problems that users face in collecting information in the Internet. At the same time, it provides decision support for managers. The specific work is as follows Firstly, this paper points out the practical significance of enterprises' competitive intelligence work under the economic globalization, expounds the necessity for enterprises to build competitive intelligence systems, and points out the shortcomings of the mainstream competitive intelligence software in the market at present. From the point of view of system development, this paper studies a series of key technologies, such as the working principle of topic crawler in Web information collection, the preprocessing of custom web document of crawler seed, character encoding, Chinese word segmentation, page formatting and so on. (3) the architecture of theme crawler is deeply studied, and the internal structure of crawler is optimized according to the page features of third-party portal. For Web documents obtained from high quality data sources, an improved TF-IDF method is used to extract the domain subject words as the basis of information processing and analysis. The improved algorithm has greatly improved the accuracy of the subject word extraction. Finally, according to the content of this paper, we design and develop an automatic information collection system for medicine field. The system can customize the competitors' website pages, collect information regularly and transform the information into a certain format for the information staff.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:G351;F272
【相似文献】
相关期刊论文 前10条
1 赵丽娜;周吉顺;;基于WEB的高校网上选课系统的设计与实现[J];电脑知识与技术;2011年18期
2 米新英;;基于Web的通用商品报价系统的研究与实现[J];北华航天工业学院学报;2011年03期
3 朱启英;李明霞;穆玉明;张源明;;基于WEB的考试系统在医学远程教育中的应用[J];中国高等医学教育;2011年06期
4 段静波;潘惠苹;;基于WEB的学院教务管理系统设计与应用[J];电脑知识与技术;2011年17期
5 范毅君;马永威;;浅谈门户网站的设计与在油田中的应用[J];中国石油和化工标准与质量;2011年07期
6 潘生;;基于WEB的人力资源管理专业亲验式教学资源库系统设计[J];电脑知识与技术;2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的无刷新即时通讯设计与实现[J];重庆科技学院学报(自然科学版);2011年04期
8 王玉华;;Unix平台下的数据库查询开发工具(Web-DTools)的设计与实现[J];信息与电脑(理论版);2011年06期
9 张爱军;;电子商务技术的创新发展趋势[J];电脑知识与技术;2011年26期
10 钟寿福;吴伟信;;中学研究性学习网络支撑平台的设计与实现[J];福建电脑;2011年07期
相关会议论文 前10条
1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
相关重要报纸文章 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报特约撰稿 张娟;用Web 2.0提升知识管理效率[N];计算机世界;2008年
3 厉民;金融风暴冲击Web2.0产业[N];人民邮电;2008年
4 电脑商报记者 周雪;Web安全市场须冷却慎行[N];电脑商报;2008年
5 郭川;Web2.0:新花样层出不穷[N];人民邮电;2008年
6 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
7 本报记者 李飞虎;Web 2.0[N];中国计算机报;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 商报记者 吴辰光;Web2.0凸显空洞概念[N];北京商报;2009年
10 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
相关博士学位论文 前10条
1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
相关硕士学位论文 前10条
1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
3 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年
10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
,本文编号:1870897
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1870897.html