基于微博的城市投诉文本的挖掘与分析
发布时间:2020-09-14 10:08
近几年,随着微博问政的兴起,越来越多的政府部门开设官方微博与百姓互动。例如,“北京12345”作为政务微博的正式开通,极大方便了群众反映非紧急救助服务类诉求。由于微博平台的大众化、平民化,且用户操作便捷,使得每天收到的投诉微博数量巨大。如何采用计算机技术,及时抽取主要的投诉事件,改变现有的人工校对过程,让事件的提取自动化,从而在最短时间内发现热点问题、热点地区,上报有关部门及时处理,对百姓民生、城市发展有着重要的推进作用。因此,基于微博的城市投诉文本的挖掘与分析研究有着重要的研究价值和现实意义。城市投诉信息中地理位置对于投诉事件有着重要的意义,没有具体位置的投诉信息是无效的。然而目前网络上的投诉信息,由于投诉者在表达上存在差异,导致投诉信息无法形成统一的书写规范,尤其是微博上的投诉信息,具有表达方式口语化、新词汇多、错别字多等特点,投诉信息中涉及的地理位置一般比较具体,并与投诉内容混杂在一起,使得地理位置的提取、区域的自动划归存在较大的难度。本课题主要针对微博城市投诉信息领域进行文本挖掘与分析,以北京12345政务微博投诉数据为基础,利用信息抽取技术,自动抽取投诉事件,将非结构化数据转换为结构化数据,着重研究该领域的地理位置实体识别、地理位置实体完整性表示以及投诉分析平台中的应用。目的帮助城市管理部门相关工作人员更有效、更便捷的分析城市投诉微博。本文的主要研究内容包括:(1)设计并实现了一种自动采集城市投诉微博的网络爬虫。通过分析已有的新浪微博爬虫的现状,从性能、可操作性两个角度考虑,设计了基于新浪微博页面解析的微博网络爬虫,该爬虫能够通过主题词对城市投诉微博进行采集,并且不受使用新浪微博API的限制,从而实现页面的自动爬取。(2)提出微博城市投诉文本中的地理位置实体识别方法。首先,引用搜狗词库中与北京地理位置相关的词库,以及词性、尾词、尾字进行特征标注,利用CRF识别出地理位置实体;接下来,根据微博和地理位置实体的特点,对CRF识别后的数据进行二次标注;最后,利用微博规则库对识别结果进行补召修正地理位置实体,最终实现地理位置实体的识别。(3)提出基于互动问答社区——百度知道的地理位置实体完整性表示方法。首先,对缺陷地理位置实体转化为所属区域问题,并通过百度知道进行检索;其次,根据检索的结果提取特征,计算该地理位置实体属于各个区域的得分,并构建出缺陷地理位置实体的所属区域特征向量;最后,利用规则对缺陷地理位置实体进行完整化处理,实现地理位置实体完整性表示。(4)设计并实现了一个微博城市投诉分析平台。平台主要将基于主题词的微博获取、地理位置实体识别以及缺陷地理位置实体完整性表示三大功能模块进行整合。通过JAVA设计的客户端程序为用户提供数据配置及数据处理展示的界面,使平台能够完成自动采集城市投诉微博,并对微博进行过滤,识别出地理位置实体,通过互动问答社区——百度知道对缺陷地理位置实体进行完整化等一系列操作。
【学位单位】:北京信息科技大学
【学位级别】:硕士
【学位年份】:2015
【中图分类】:TP391.1
本文编号:2818046
【学位单位】:北京信息科技大学
【学位级别】:硕士
【学位年份】:2015
【中图分类】:TP391.1
【参考文献】
相关期刊论文 前10条
1 李雪伟;吕学强;董志安;刘克会;;利用URL-Key进行查询分类[J];北京大学学报(自然科学版);2015年02期
2 梁士金;;基于聚焦爬虫的编目数据搜集模型构建[J];图书馆学研究;2013年13期
3 邱泉清;苗夺谦;张志飞;;中文微博命名实体识别[J];计算机科学;2013年06期
4 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
5 刘宁雯;;中国政务微博研究文献综述[J];电子政务;2012年06期
6 潘正高;;基于规则和统计相结合的中文命名实体识别研究[J];情报科学;2012年05期
7 黄河;刘琳琳;;试析政府微博的内容主题与发布方式——基于“广东省公安厅”与“平安北京”微博的内容分析[J];现代传播(中国传媒大学学报);2012年03期
8 李丽双;党延忠;廖文平;黄德根;张颖;;CRF与规则相结合的中文地名识别[J];大连理工大学学报;2012年02期
9 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
10 邓凯元;姜磊;;正则表达式匹配引擎性能分析[J];计算机与现代化;2011年07期
本文编号:2818046
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2818046.html