互联网舆情信息获取与分析研究
【图文】:
图 5- 2 凯迪社区网页初始源代码Figure 5- 2 Original Code of Web Page from KaiDi Forum接着,将该网页地址作为本文程序的输入,经过本文方法的处理后,可以看到以下结果,如图 5- 3 所示。可以发现原先出现脚本的地方,出现段标准的 HTML 代码,而该段代码就是一个标准的超级链接,此时就可以HTML 标记识别方法提取页面中的 URL 信息了,也就可以获取页面内的帖题链接。
图 5- 2 凯迪社区网页初始源代码Figure 5- 2 Original Code of Web Page from KaiDi Forum接着,将该网页地址作为本文程序的输入,经过本文方法的处理后,可以看到以下结果,如图 5- 3 所示。可以发现原先出现脚本的地方,出现段标准的 HTML 代码,而该段代码就是一个标准的超级链接,,此时就可以HTML 标记识别方法提取页面中的 URL 信息了,也就可以获取页面内的帖题链接。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP312.2;G250.73
【相似文献】
相关期刊论文 前10条
1 葛斌;蒋林承;肖延东;史宗麟;郭丝路;;网络论坛意见领袖挖掘系统设计与实现[J];电脑知识与技术;2011年22期
2 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
3 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前3条
1 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
相关重要报纸文章 前3条
1 ;评测公告[N];中国计算机报;2004年
2 四川 陈伟;用“Ctrl+C”组合键复制加密的网页[N];电脑报;2004年
3 记者 徐建;宣城畅通网络舆情解民意[N];安徽日报;2008年
相关硕士学位论文 前10条
1 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
2 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年
3 白红霞;支持JavaScript解析的网页采集系统设计与实现[D];东北大学;2008年
4 杨超;基于网格的大规模网页采集技术研究[D];哈尔滨工业大学;2007年
5 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年
6 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年
7 管敏杰;WEB文本挖掘系统[D];浙江工商大学;2007年
8 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年
9 李丽莉;网络信息监控分析系统的研究与设计[D];江西师范大学;2008年
10 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
本文编号:2645805
本文链接:https://www.wllwen.com/tushudanganlunwen/2645805.html