面向网络论坛的突发话题发现
本文选题:计算机应用 切入点:中文信息处理 出处:《中文信息学报》2010年03期
【摘要】:每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。如何使用机器自动化的方法检测论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题发现问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确、严谨、规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题检测面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题发现模型,它从内容和用户参与度两个角度来检测论坛话题。在"水木社区"的"水木特快"上进行了相关的实验,实验结果表明该文提出的模型不仅可以检测突发话题,而且可以检测与这些话题相对应的用户社区。
[Abstract]:Every day there is a lot of information coming up in the forum, Users can be informed through the forum of the current international and domestic events that are happening. How to use the method of machine automation to detect unexpected topics in the forum has become a basis for search engines and web mining systems. Topic Detection and tracking Model (TDTT) is a good way to solve the problem of topic discovery. But TDT deals with the news corpus, which is more accurate and rigorous than the content of the forum. The method used in the specification .TDT is not suitable for a random forum. Therefore, topic detection in a noisy environment such as a network forum faces some difficulties and challenges. In this paper, a topic discovery model based on noise filtering is proposed. It detects forum topics from the perspective of content and user participation. Experiments are carried out on Waterwood Express in "Waterwood Community". The experimental results show that the model presented in this paper can not only detect unexpected topics. And you can detect user communities that correspond to these topics.
【作者单位】: 中国科学院计算技术研究所;中国科学院研究生院;
【基金】:国家自然科学基金重点项目资助(60933005) 国家973基础研究计划资助项目(2007CB311100) 国家863计划资助项目(2007AA01Z438)
【分类号】:TP393.094
【共引文献】
相关期刊论文 前2条
1 公茂果;张岭军;马晶晶;焦李成;;Community Detection in Dynamic Social Networks Based on Multiobjective Immune Algorithm[J];Journal of Computer Science & Technology;2012年03期
2 韩忠明;陈妮;乐嘉锦;段大高;孙践知;;面向热点话题时间序列的有效聚类算法研究[J];计算机学报;2012年11期
相关会议论文 前1条
1 陈友;程学旗;杨森;;面向网络论坛的突发话题抽取[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前3条
1 王澎;人类在线行为的实证和建模[D];中国科学技术大学;2011年
2 邓建国;Web2.0时代的互联网使用行为与网民社会资本之关系考察[D];复旦大学;2007年
3 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
相关硕士学位论文 前9条
1 陈传梓;基于复杂网络理论的社区结构挖掘与人类行为模式特征分析[D];浙江大学;2011年
2 谭彩丽;基于主题相关博客的属性挖掘模型设计[D];北京邮电大学;2011年
3 乔文妤;高校BBS平台信息有序化研究[D];南京大学;2011年
4 张灿;基于规则的论坛爬取与抽取一体化[D];华东师范大学;2011年
5 谭卓鹏;异质网络中的社区挖掘技术研究[D];哈尔滨工业大学;2011年
6 邹爱民;博客技术应用于中职英语写作教学的探索[D];华东师范大学;2007年
7 李丽娜;以大学生为受众的思政信息网络传播对策研究[D];华东师范大学;2010年
8 李晶;信息传播网络学习方法研究[D];吉林大学;2012年
9 李晶;沈阳市农田土壤重金属污染调查项目质量控制研究[D];吉林大学;2012年
【相似文献】
相关期刊论文 前10条
1 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
2 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
3 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
4 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
5 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
6 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
7 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
8 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
9 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
10 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
相关会议论文 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
5 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
7 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
8 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
9 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
10 柏艳平;赵银燕;肖田元;;基于XML的键合图模型交换及重用[A];第十届中国科协年会论文集(一)[C];2008年
相关重要报纸文章 前10条
1 陈奕奕 何志武;网络论坛和报纸评论的互补互动[N];中华新闻报;2004年
2 张爱芹;网络论坛对突发事件舆论的引导策略研究[N];中华新闻报;2008年
3 记者 李京华;网络论坛内容侵权谁担责[N];经济参考报;2007年
4 本报记者 李燕锋;真诚面对面 沟通无距离[N];洛阳日报;2010年
5 范国荣;发展,应用为本[N];中国计算机报;2002年
6 记者彭文辉;谢亦森“网谈”激起强烈反响[N];宜春日报;2009年
7 本报记者 顾一琼;青年一代 何以爆发“群体式寂寞”[N];文汇报;2009年
8 ;企业通信声音加大[N];网络世界;2007年
9 郑黎;慈溪法院:删帖并非剥夺网友发表权[N];新华每日电讯;2008年
10 记者 郭奔胜 王恒志;父母新忧:儿女上网过年比见爹娘还亲[N];新华每日电讯;2006年
相关博士学位论文 前10条
1 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
2 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
3 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
4 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
5 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
6 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
7 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
8 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
9 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
10 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
相关硕士学位论文 前10条
1 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
2 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
5 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
6 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
7 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
8 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
9 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
10 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
,本文编号:1687037
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1687037.html