当前位置:主页 > 社科论文 > 图书档案论文 >

互联网舆情信息获取与分析研究

发布时间:2020-04-30 13:13
【摘要】: 本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino脚本解析引擎,有效地解决了互联网中JavaScript动态网页的获取问题。同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法,对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。 本文首先讨论了JavaScript动态网页的获取,回顾了网页获取领域的已有成果,列举了网页获取领域的基本知识,包括HTML语言、HTTP协议以及URL统一资源定位符等基本概念,以及动态网页方面的相关知识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应的改进。 在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取机制做了详细的说明。尽管传统的网页获取技术可以利用HTML语言的一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展,越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。 接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文本倾向性分析将是文本分类的一个重要发展方向。 在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,本文提出的综合的方法,可以有效地对文本进行倾向性分类。
【图文】:

源代码,网页,社区,页面


图 5- 2 凯迪社区网页初始源代码Figure 5- 2 Original Code of Web Page from KaiDi Forum接着,将该网页地址作为本文程序的输入,经过本文方法的处理后,可以看到以下结果,如图 5- 3 所示。可以发现原先出现脚本的地方,出现段标准的 HTML 代码,而该段代码就是一个标准的超级链接,此时就可以HTML 标记识别方法提取页面中的 URL 信息了,也就可以获取页面内的帖题链接。

网页,代码


图 5- 2 凯迪社区网页初始源代码Figure 5- 2 Original Code of Web Page from KaiDi Forum接着,将该网页地址作为本文程序的输入,经过本文方法的处理后,可以看到以下结果,如图 5- 3 所示。可以发现原先出现脚本的地方,出现段标准的 HTML 代码,而该段代码就是一个标准的超级链接,,此时就可以HTML 标记识别方法提取页面中的 URL 信息了,也就可以获取页面内的帖题链接。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP312.2;G250.73

【相似文献】

相关期刊论文 前10条

1 葛斌;蒋林承;肖延东;史宗麟;郭丝路;;网络论坛意见领袖挖掘系统设计与实现[J];电脑知识与技术;2011年22期

2 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期

3 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前3条

1 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

2 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关重要报纸文章 前3条

1 ;评测公告[N];中国计算机报;2004年

2 四川 陈伟;用“Ctrl+C”组合键复制加密的网页[N];电脑报;2004年

3 记者 徐建;宣城畅通网络舆情解民意[N];安徽日报;2008年

相关硕士学位论文 前10条

1 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年

2 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年

3 白红霞;支持JavaScript解析的网页采集系统设计与实现[D];东北大学;2008年

4 杨超;基于网格的大规模网页采集技术研究[D];哈尔滨工业大学;2007年

5 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年

6 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年

7 管敏杰;WEB文本挖掘系统[D];浙江工商大学;2007年

8 张晓峰;并行网页抓取系统设计[D];北京交通大学;2007年

9 李丽莉;网络信息监控分析系统的研究与设计[D];江西师范大学;2008年

10 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年



本文编号:2645805

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2645805.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c24f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com