网络舆情热点信息发现及其倾向性研究
发布时间:2020-10-31 11:39
随着信息技术的发展和互联网的日益普及,网络已经成为广大民众获取信息的主要渠道,同时网络也成为人们发表评论、表达民意的重要平台。面对互联网上飞速增长的新闻话题以及人们的评论信息,如何从海量信息中采集到满足特定需求的信息,如何将互联网信息组织整理成有效的机器数据,如何从采集到的数据中区分有用信息和无用信息等等这些问题都是信息科技发展所面临的难题。网络舆情是指民众通过互联网对政府管理以及现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和。网络舆情与社会舆情相互作用、相互影响。两者不仅在内容表现形态方面具有一致性,同时网络舆情在一定程度上会影响社会舆情的发展趋势,对社会影响巨大。因此,政府部门对网络舆情信息必须具备一定的监控能力,能够及时掌握一定时期内民众所关注的热点问题,了解民众对热点事件的看法和态度,从而做出正确的决策,主动引导舆论走向。 本文在分析网络舆情热点信息发现和网络舆情热点信息倾向性研究现状的基础上,从舆情信息的来源入手,设计了详细的采集流程。针对大众和政府部门都比较关注的热点信息,本文根据热点信息的概念和特征建立了热点信息的判断标准,并将热点信息的特征定量化,构建数学模型,用算法来描述热点信息的发现和获取。针对热点信息的倾向性分析,本文首先手工构建了极性词典,并对极性词典进行了扩充和修正,将未登录词汇、否定词和强调副词对原始极性词的影响做了进一步分析,并提出相应的解决办法。对于普通的文本信息,用向量来进行表示,通过计算特征词的权重来选取文本的特征词条。由于中文句子以标点符号进行划分,本文对句子进行句法分析,解析出词语之间的依存关系,并对词语进行词性标注。本文建立了语义模板,通过语义模板的匹配来确定句子的语义模式,利用极性词典计算出词语的极性值,再结合句法分析和模式匹配得出其上下文极性。句子的倾向性由组成句子的主题词和极性词及其极性值决定,文本的倾向性由句子的倾向性和句子在整个文本中的权重计算得出。最后,本文对所做的研究工作进行了模拟实验,对实验结果进行了讨论与分析。
【学位单位】:武汉理工大学
【学位级别】:硕士
【学位年份】:2010
【中图分类】:F49
【部分图文】:
现有的搜索引擎主要分为基于目录的搜索引擎、基于机器人的搜索引擎、基于客户的搜索引擎、元搜索引擎和分布式搜索引擎声]。网络舆情信息的采集流程如图2一1所示,其具体步骤如下:间间嵌矛l沂器 器解解折器 器卜卜如翰翰 图2一1网络舆情信息采集工作流程图(1)注入抓取URL。因为搜索引擎的抓取程序要抓取网页,就必须给定一个或一些初始的URL入口,从而定位到某个或某些网页,在此基础上,搜索引擎按照广度优先或者深度优先的遍历策略进行抓取。在这一过程中,会构建一个 CrawlDB,将URL进行格式化和过滤,以消除部分不合法的URL,并将己抓取过和未抓取的URL区分开来
武汉理工大学硕士学位论文很/d〔15]不错八g[16」!/wp〔17〕(EOS>/<EOS>句法分析的结果如图3一4所示:·惠昔笔记本配置瞰好,价格也不贵,我觉得很不错!Z飞乃配置本笔记趁吏心日图3一4句法分析结果示意图依存关系对:川惠普_[2〕笔记本(ATT)[2]笔记本_[3〕配置(ATT)〔3〕配置_[5」好(CMP)[4〕比较_[5〕好(ADV)[7〕价格_〔10〕贵(SBV)[9〕不_[10〕贵(ADV)[11」我_[13」觉得(SBV)[13〕觉得_[15〕不错(SBV)〔14〕很_[15]不错(ADV)[17](EOS>_[3〕配置(HED)括号中的符号表示两个词之间的修饰关系,详细定义见表3一1。表3一 1DeParser词性和依存关系标记注释词性与依存关系标记词性与依存关系标记定中关系数量关系并列关系后附加关系介宾关系比拟关系关连接构独立结构动补结构“地”字结构“把”字
【引证文献】
本文编号:2863897
【学位单位】:武汉理工大学
【学位级别】:硕士
【学位年份】:2010
【中图分类】:F49
【部分图文】:
现有的搜索引擎主要分为基于目录的搜索引擎、基于机器人的搜索引擎、基于客户的搜索引擎、元搜索引擎和分布式搜索引擎声]。网络舆情信息的采集流程如图2一1所示,其具体步骤如下:间间嵌矛l沂器 器解解折器 器卜卜如翰翰 图2一1网络舆情信息采集工作流程图(1)注入抓取URL。因为搜索引擎的抓取程序要抓取网页,就必须给定一个或一些初始的URL入口,从而定位到某个或某些网页,在此基础上,搜索引擎按照广度优先或者深度优先的遍历策略进行抓取。在这一过程中,会构建一个 CrawlDB,将URL进行格式化和过滤,以消除部分不合法的URL,并将己抓取过和未抓取的URL区分开来
武汉理工大学硕士学位论文很/d〔15]不错八g[16」!/wp〔17〕(EOS>/<EOS>句法分析的结果如图3一4所示:·惠昔笔记本配置瞰好,价格也不贵,我觉得很不错!Z飞乃配置本笔记趁吏心日图3一4句法分析结果示意图依存关系对:川惠普_[2〕笔记本(ATT)[2]笔记本_[3〕配置(ATT)〔3〕配置_[5」好(CMP)[4〕比较_[5〕好(ADV)[7〕价格_〔10〕贵(SBV)[9〕不_[10〕贵(ADV)[11」我_[13」觉得(SBV)[13〕觉得_[15〕不错(SBV)〔14〕很_[15]不错(ADV)[17](EOS>_[3〕配置(HED)括号中的符号表示两个词之间的修饰关系,详细定义见表3一1。表3一 1DeParser词性和依存关系标记注释词性与依存关系标记词性与依存关系标记定中关系数量关系并列关系后附加关系介宾关系比拟关系关连接构独立结构动补结构“地”字结构“把”字
【引证文献】
相关硕士学位论文 前1条
1 张芳源;基于网络舆情的政府决策信息平台功能设计[D];安徽大学;2013年
本文编号:2863897
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/2863897.html