WEB文本情感分类中关键问题的研究(可复制论文).pdf 全文
本文关键词:WEB文本情感分类中关键问题的研究,由笔耕文化传播整理发布。
摘要
北京邮电人学博士学位论文
WEB文本情感分类中关键问题的研究
摘要
随着计算机技术和互联网的迅猛发展,网络在线的文档成为现代主
要的信息载体,是人们生活中不可或缺的主要信息来源。而随着互联网
进入web2.0时代,人们从被动的接受门户网站发布信息,转变为主动的
获取、发布、共享、传播信息。同时,由于用户参与到信息的产生,网
络信息的内容形式也变得多样化,越来越多的具有个人观点性的内容充
斥着网络。这些观点性内容对于网络电子商务、网络社区发掘、网络信
息安全、网络信息检索等多方面都具有重要的意义和实用价值。对网络
文本观点性内容的自动情感分析成为近期web信息处理的一个研究热
点,而其中的核心技术就是文本情感分类。
在这样一个背景下,本文对面向web文本的中文分词、文本情感分
类以及Weblog观点检索问题进行了下述创新性研究工作:
首先,研究了面向web文本的中文分词问题。根据web文本环境的
特点,研究重点在于中文分词中的未登录词识别问题,同时兼顾切分歧
义消解、整体切分准确率和高效处理海量文本的能力。在未登录词识别
方面,提出了POC.NLW字符标记模板,从字符级别的粒度来表征中文
词汇的构成机制,并结合隐马尔可夫模型,实现了基于字符序列标注的
中文分词方法。此外,分别使用了基于规则匹配的预处理、基于词典匹
配的初级全切分、基于词语级别的N.Gram统计切分模型,并通过级联方
式将上述各模块有效组合,,构成了多模型混合的层叠系统。实验结果表
明,本文提出
本文关键词:WEB文本情感分类中关键问题的研究,由笔耕文化传播整理发布。
本文编号:102956
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/102956.html