互联网侨情信息采集系统设计与实现
本文选题:互联网信息 + 信息采集 ; 参考:《现代图书情报技术》2010年Z1期
【摘要】:采用通用搜索引擎与垂直搜索引擎相结合的互联网主题信息采集策略,提出多种防屏蔽技术相结合的网络采集防屏蔽解决方案,改进一种基于文本密度的网页正文抽取方法,利用基于分词的向量空间模型和余弦夹角公式实现基于内容的标题去重,并设计一个面向侨情的互联网主题信息采集系统。
[Abstract]:Based on the general search engine and vertical search engine, this paper proposes a new method of web text extraction based on text density. Based on the vector space model based on participle and the cosine angle formula, the content-based title is removed, and an Internet subject information collection system for overseas Chinese is designed.
【作者单位】: 华东师范大学信息学系;南京大学信息管理系;
【基金】:国务院侨务办公室课题项目“网络侨情智能服务平台”(项目编号:GQBQ2009052) 教育部人文社会科学研究项目“互联网舆情信息分析与管理机制研究”(项目编号:08JC870003) 上海市社会科学规划课题“政务公开信息的网络舆情反馈研究”(项目编号:2009ETQ001)的研究成果之一
【分类号】:G354
【参考文献】
相关期刊论文 前1条
1 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
相关硕士学位论文 前1条
1 宁力;搜索引擎中网页查重方法的研究[D];北京化工大学;2007年
【共引文献】
相关期刊论文 前6条
1 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
2 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
3 袁毓林;用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J];中文信息学报;2005年05期
4 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
5 何婷婷;朱薏;张勇;任函;;基于词语属性的计算机辅助获取流行词语研究[J];中文信息学报;2006年06期
6 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
相关博士学位论文 前3条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
相关硕士学位论文 前10条
1 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
2 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
3 魏常丽;搜索引擎结果的再检索[D];内蒙古大学;2005年
4 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
5 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
6 朱薏;流行词语计算机获取模型研究[D];华中师范大学;2006年
7 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
8 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
9 刘飚;基于新型坐标树的页面分析和内容提取框架[D];北京邮电大学;2006年
10 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年
【二级参考文献】
相关期刊论文 前10条
1 郑跃平,陈传峰;基于XML的WEB数据收集的一种应用[J];福建电脑;2005年12期
2 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
3 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
4 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
5 赵俊岚;XML编程中的DOM与SAX技术[J];计算机工程;2004年24期
6 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
7 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
8 刘罡;基于XSL-FO的Web数据库报表实现[J];计算机应用;2003年05期
9 白广慧,连浩,刘悦,程学旗;网页查重技术在企业数据仓库中的应用[J];计算机应用;2005年07期
10 张大陆,时慧;电子公文中数字签名的设计与实现[J];计算机应用研究;2001年06期
【相似文献】
相关期刊论文 前10条
1 王少军;;丽水市网络图书馆建设和发展研究[J];科技创新导报;2011年23期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前1条
1 石德万;梁晓天;廖球;何海钊;;大学生毕业论文工作期间信息查询行为的调查[A];2010广西图书馆学会年会暨第28次科学讨论会论文集[C];2010年
相关重要报纸文章 前2条
1 孙小莉;图书馆电子阅览室的发展与管理[N];咸阳日报;2008年
2 陆敏;情报能力考验中国企业[N];经济参考报;2003年
相关硕士学位论文 前4条
1 王亮;数字化图书馆基本体系及实现[D];华中科技大学;2004年
2 郑燃;基于Folksonomy的图书馆信息组织研究[D];郑州大学;2010年
3 汪维富;信息素养2.0的内容模块研究[D];江西师范大学;2011年
4 程宇琳;合肥市高等学校大学生网络阅读研究[D];安徽大学;2012年
,本文编号:1834899
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1834899.html