服务电话:400-709-7348

突发事件新闻报道BOBVIP体育与微博信息的爆发性
发表日期:1662160166 浏览次数:163

BOBVIP体育情 报 学 报 ISSN 1000 - 0135第 32 卷 第 3 期 288 - 298, 2013 年 3 月JOURNAL OF THE CHINA SOCIETY FOR SCIENTIFICAND TECHNICAL INFORMATIONVol. 32 No. 3, 288 - 298ISSN 1000 -0135March 2013doi:10. 3772 / j. issn. 10000135. 2013. 03. 008收稿日期:2011 年 9 月 9 日作者介绍:刘志明,男,1979 年生,华南农业大学公共管理学院讲师,主要研究方向:管理信息系统,应急管理。 Email:wylzm@ 126. com。 刘鲁,女,1947 年生,北京航空航天大学经济管理学院教授,博士生导师,主要研究方向:管理信息系统,电子商务,知识管理。 苗蕊,女,1982 年生,东北财经大学讲师,主要研究方向:管理信息系统,知识管理。1) 基金项目:国家自然科学基金资助项目(No. 90924020); 高等学校博士学科点专项科研基金(No. 200800060005)。

——万方数据突发事件新闻报道与微博信息的爆发性模式比较1)刘志明1,2 刘 鲁2 苗 蕊3(1. 华南农业大学 公共管理学院,广州 510642; 2. 北京航空航天大学 经济管理学院, 北京 100191;3. 东北财经大学 管理科学与工程学院,大连 116025)摘要 发展的状态。 利用隐马尔可夫模型对新闻渠道和微博两种渠道的信息爆发性模式进行了分析,对 28 起突发事件进行了实验研究。 对两种渠道的信息爆发模式上进行了比较,实验结果表明两种渠道在信息爆发模式上存在差异,这种差异不仅与突发事件类型有关,而且与突发事件的等级有关。 进而对两种渠道信息传播的时效性进行了研究,结果表明微博信息演化过程快于新闻报道。 结论对于突发事件监控预警具有实际的指导意义。关键词 Web 信息流是突发事件监控预警中重要的信息来源,通过研究信息流的爆发特性可以及时的了解事件突发事件 爆发模式 隐马尔可夫模型 新闻报道 微博Comparison of Burst Pattern Between News Reports andMicroblog Information on Emergency EventsLiu Zhiming1,2, Liu Lu(1. South China Agricultural University,Guangzhou 510642;2. School of Economics and Management,Beihang University,Beijing 100191;3. Dongbei University of Finance and Economics,Dalian 116025)2and Miao Rui3Abstract the status of the emergency through studying the burst of information stream. This paper proposed a method to model theburst of the information and compared the burst models between news reports and microblog information on emergencyevents through analyzing the 28 emergency events. The experimental results show that the burst models between the twochannels are different, and the difference not only depends on the type of event, but also depends on the level of theemergency. Furtherly this paper analyzed the speed of the information burst between the news report and the microblog,theexperimental result shows the microblog information is faster than news report in the burst speed. The conclusions aremeaningful for the surveillance in emergency.Keywords Web information is the important information source for surveillance in emergency events, people can learnemergency event, burst mode, hidden Markov model, news reports, nicroblog1 引 言突发事件,是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾 害、 事 故 灾 难、 公 共 卫 生 事 件 和 社 会 安 全 事件[1]。

突发事件应急管理越来越受到世界各国的重视,建立应急管理体系,运用科学的理论、方法和882突发事件新闻报道与微博信息的爆发性模式比较工具,提高突发事件预警、响应、追踪处置和恢复能力在受到政府部门关注的同时,也成为学术界研究的重要科学问题。 突发事件预警干预是应急管理的关键环节之一。 预警干预包括预警分析和干预两项任务:预警分析是对非常规突发事件各阶段的相关信息进行监测、识别、诊断和评价并及时报警的管理活动;干预是在预警分析的基础上,对不良趋势进行纠正、预防与控制的管理活动。 信息资源是非常规突发事件预警分析的重要依据。 在网络化信息时代,除了制度化渠道的信息之外,非制度化渠道中的Web 信息资源汇集了各类事件的新闻报道和舆论评价,是突发事件的重要信息平台,对事件信息管理与控制具有广泛作用。突发事件信息的爆发性是指突发事件发生后,与之相关的信息急剧上升的状态。 信息的爆发性状态往往是与突发事件发展态势紧密相关的。 新闻网站作为网络上的新闻发布媒体,在传递突发事件相关信息方面扮演了重要的角色,人们可以从新闻媒体上了解到事件发展的状态以及政府对突发事件的处理情况,相应的,新闻信息流的爆发状态也反映了媒体对于突发事件的关注情况。

BOBVIP体育 微博作为近几年新兴的信息传播渠道,具有发布接收信息的即时性、个人为中心兼顾群体关系的个人性、互动性等特征,在很短的时间内便得到了快速的发展。 同时作为大众交流信息的平台,微博在突发事件信息传播、交流、预警方面的作用越来越加明显[2 ~ 6]。 与新闻报道不同,微博在突发事件信息传播方面更多的体现了大众的舆论,而这种信息的爆发状态也代表了大众对于突发事件关注的程度。 当前政府在应对突发事件过程中,应该同时了解新闻和微博这两种渠道信息的爆发状态,从媒体和大众两个不同的角度了解突发事件的发展态势,以便及时的对突发事件进行预警干预。 而了解这两种渠道在信息爆发模式上有什么特点,以及两者之间有什么关系便成了当务之急。基于这种需求,本文以新闻报道和微博作为研究对象,使用隐马尔可夫模型研究了他们的爆发模式,分析了不同渠道的爆发模式特点,并且对这两种渠道的爆发模式进行了比较分析。当前在主题或新闻的爆发性检测和活跃性评价上,研究方法主要有三类:①基于阈值的方法:给定预先设定的阈值,利用 χ频率在一段时间内是否超过了阈值。 若超过则判定此主题属于爆发性主题[7,8]。 这种方法对时段控制非常敏感突发事件 数据新闻,Zhu 等[9]提出了一种弹性的爆发性主题2检验判断某一主题出现的发现算法,可以设置不同长度的时间段及其对应阈值。

阈值方法面临的主要挑战是如何消除噪声数据对检 测 质 量 的 干 扰。 ② 基 于 状 态 的 识 别 方 法:Kleinberg[10]基于排队论思想提出了基于状态的爆发性主题识别方法,即:将给定时间段内主题出现的频率看作是由不同状态自动确定的。 而状态间的转换由概率决定。 Kumar 等[11]基于此方法研究了博客空间的热门主题识别。 Wang 等[12]将该方法扩展到多数据流研究中,可以在多语言数据流环境下识别热点趋势。 ③基于多指标的综合主题或新闻评价:评价主题或新闻的活跃性,不仅要考虑相关信息出现的频率,即:爆发性;还要从主题的关联报道数量、信息源权威度、报道新鲜性和民众关注度等多项指标,对主题的活跃性给予综合评价[13,14]。目前,针对事件新闻报道数量的演化模式,文献[15]通过观察报道数量随时间变化的曲线,归纳出了三种演化模式,然后采用 S - 型函数拟合的方式估计每个事件的新闻报道所属的模型,但我们通过实证分析发现这三种时间演化模式很难代表所有的演化模式。 文献[16] ~[17] 利用隐马尔可夫模型对新闻报道数量进行了演化建模,并且通过时间序列对模式进行了聚类。

与文献[16] ~[17]不同,作者在文献[18] 充分利用了之前训练隐马尔可夫模型所得到的结果对演化模式进行聚类,得到了四种爆发性模式,并且对不同的模式进行了分析。 当前存在的研究大多针对新闻报道,而对于微博的信息爆发性研究以及对于突发事件信息在两种不同传播渠道的爆发性比较分析作者没有查到相关文献。 为了弥补这个空白,本文在文献[18] 的基础上,利用隐马尔可夫模型对 28 起突发事件的新闻报道以及微博信息进行了爆发性建模突发事件 数据新闻,对不同渠道的爆发性进行了分析,并且对两种渠道的爆发模式进行了比较分析。2 突发事件信息的爆发性建模本文使用基于状态的方法,也即基于隐马尔可夫的模型对突发事件信息的爆发性建模。 它将在给定时间段内关于某一事件的信息出现的频次看作是由不同状态确定的,状态间的转换由转移概率决定[10,16,17,19]。 但目前提出的基于状态的方法大多只考虑了 0 和 1 两种状态,0 代表非爆发性状态,1 代表爆发性状态,并且都假定初始状态始终为 0。 这些限制对于研究突发事件的信息爆发性以及应急决—982—万方数据情报学报第 32 卷第 3 期2013 年 3 月策者来说非常不合适,首先突发事件信息从非爆发状态到爆发状态过度常常会有一个转换过程,中间会有其他的状态,而这些中间状态对于应急管理是至关重要的,可以指导决策者进行预警干预,如果只考虑两种状态会损失太多有用的信息;另外突发事件区别与其他普通事件的一个特点就是发生的突然性突发事件 数据新闻,反映在信息传播上,在事件发生的初期信息就有可能急剧上升,在这种情况下,将初始状态始终设为0 是不合理的。

BOBVIP体育 基于以上分析,本文去掉了 0 - 1 两种状态和初始状态始终为 0 的两个假设,以更详细和准确地描述突发事件信息的爆发性。2.1 隐马尔可夫模型(HMM,Hidden Markov Model)隐马尔可夫模型通常可用五元组 λ =(N, M,A, B, π)来描述,或可简写为 λ =( A, B, π)[20]。① N 为状态的数量,S =(s1, s2,…, sN)为状态的集合。② M 为每个状态可能的观察值的数量,V =(v1, v2,…, vM)为对应的观察值集合。③ 定义 Q =(q1, q2, …, qT) 为长度固定为 T的状态序列,则 O =(o1, o2, …,oT) 为对应的观察值序列。④ A ={aij} 为状态转移概率矩阵,aij= P(qt + 1= sj︱qt= si)表示在时刻 t 从状态 i 转移到状态 j 的概率, 1≤i, j≤N, 且 aij≥0,∑⑤ B ={bi(k)} 为观察值的概率分布矩阵,bi(k) = P(ot= vk︱qt= si) 表示在给定当前时刻状态为 i 的情况下,观察值 vk出现的概率。⑥ π ={πi} 为初始状态概率分布向量,πi= P(q1= si) 表示初始状态为 i 的的概率,且 πi≥ 0,∑Nj = 1aij= 1。

Ni = 1πi= 1。与隐马 尔 可 夫 模 型 密 切 相 关 的 问 题 有 以 下三个:第一类问题(评估):给定观察值序列 O 和模型λ =( A, B, π),求 P(O︱λ),即在给定模型下,该观察值序列出现的概率多大。第二类问题(解码):给定观察值序列 O 和模型λ =( A, B, π),如何选择一个对应的状态序列 Q,使 Q 能够最为合理地解释观察值序列 O。第三类问题(训练):给定观察值序列 O,如何调整模型参数 λ =( A, B, π),使该模型能够最好地描述观察值序列,即使 P(O︱λ)最大。——万方数据2. 2 突发事件信息的爆发性建模突发事件信息的爆发性建模是构建相应的隐马尔可夫模型并求解隐马尔可夫模型的第二类问题的过程。(1) 模型定义① S =(s0,s1突发事件 数据新闻,…, sN - 1)是状态集合,状态数为N,s0表示信息的非爆发性状态,s1到 sN - 1表示爆发性状态,且强度依次增强。② 观察值集合 V 是自然数所组成的集合,集合的每一个元素表示每一天内突发事件信息的可能的数量。③ 观察值的概率分布矩阵 B 由实际的观察值序列确定。 设 O =(o1, o2,…,oT)表示观察值序列,ot表示第 t 天内关于该事件的信息的数量,T 表示突发事件信息的生命周期长度。

从观察值序列中可以得到一天内平均的信息数量和一天内最大的信息数量,分别用 avg 和 max 来表示。 本文中,我们假定在状态 i 下,观察值的概率分布服从如下的泊松分布:bi(k) =其中,泊松分布的参数 ωi与状态相关,且通过如下的公式得到:ωi= avg +(max - avg)Nωkk!ie-ωi(1)(Ji,i = 0,1,…,N - 1(2)④ 状态转移概率矩阵 A 和初始状态概率分布向量 π 是未知的,在给定观察值序列的前提下,可通过求解隐马尔可夫模型的第三类问题来获得,可利用最常用的基于 EM 算法的 BaumWelch 算法[21]求出使 P(O︱A, π)达到最大的 A 和 π。(2) 状态序列的计算已知观察值序列 O 和模型 λ =( A, B, π) ,可以用 Viterbi 算法[22]求解能够最为合理的解释观察值序列的状态序列 Q =(q1, q2,…, qT),其中,qt表示在第 t 天该事件的信息所处的爆发性状态。3 实验分析3. 1 实验数据考虑到微博在 2009 年下半年才在中国得到快速的发 展, 所 以 本 文 选 择 了 从 2009 年 下 半 年 到2011 年 12 月发生的突发事件作为研究对象。

BOBVIP体育 一共收集了 28 个突发事件,其中涵盖了自然灾害类、事092突发事件新闻报道与微博信息的爆发性模式比较故灾难类、公共卫生类和社会安全类四大类突发事件。 突发事件的新闻报道来源是新华网、人民网和中新网三个具备独立新闻采编权的网站,微博数据收集来自新浪微博,每个突发事件我们通过定义关键词进行搜索。 对于新闻报道,因为数量较少,在收集完后,我们通过人工进行了筛选,对一些不符合要求的报道进行了剔除。 对于微博,因为数量较大,人工筛选不现实,为了提升数据质量,避免关键词带来的模糊性,我们将搜索时间限定在事件的生命周期内,尽管如此突发事件 数据新闻,仍然存在少量的垃圾信息,这也将是我们今后需要解决的问题。 另外,微博的转发是一项重要的信息传播机制,本文在定义微博信息数量时遵循以下标准:如果转发的同时增加了信息,那么将这条转发作为一条新信息处理;如果只是单纯的转发行为,这条转发信息不计算在内。数据集详细描述见表 1。按照《国家突发公共事件总体应急预案》,突发事件按照其性质、严重程度、可控性和影响范围等因素,一般分为四级:I 级(特别重大)、II 级(重大)、III级(较大)和 IV 级(一般)。 根据突发事件的不同类型,国家制定不同的应急预案,每种类型的突发事件都有具体的分级标准。

BOBVIP体育 为了更好的分析突发事件信息爆发模式特点,我们按照不同类型突发事件相关条例或者预案对每起突发事件的等级进行了标注,以便于后面的实验分析,分级结果见表 1,详细的分级依据参考附表 1。表 1 28 起突发事件统计信息序号事件名突发事件类型突发事件等级时间新闻爆发模式类型微博爆发模式类型123456789玉树地震自然灾害类I 级I 级I 级I 级I 级I 级I 级III 级I 级I 级II 级III 级I 级IV 级IV 级IV 级IV 级II 级IV 级III 级II 级III 级II 级I 级IV 级II 级III 级III 级2010 /04 /14 - 2010 /06 /142010 /08 /07 - 2010 /10 /072010 /02 /01 - 2010 /06 /012010 /03 /28 - 2010 /05 /282010 /07 /16 - 2010 /08 /162010 /08 /14 - 2010 /09 /302009 /11 /21 - 2009 /12 /302009 /12 /07 - 2010 /01 /072010 /03 /31 - 2010 /04 /302010 /08 /16 - 2010 /08 /302010 /07 /28 - 2010 /08 /152010 /01 /17 - 2010 /01 /302010 /07 /24 - 2010 /08 /152011 /11 /16 - 2011 /11 /302011 /10 /27 - 2011 /11 /152011 /12 /12 - 2011 /12 /302010 /07 /14 - 2010 /09 /142010 /08 /04 - 2010 /10 /042010 /03 /05 - 2010 /05 /052010 /09 /01 - 2010 /10 /012009 /09 /01 - 2010 /02 /012010 /07 /20 - 2010 /09 /202010 /08 /30 - 2010 /09 /302010 /03 /16 - 2010 /04 /162009 /10 /14 - 2009 /12 /142010 /08 /23 - 2010 /10 /012010 /03 /23 - 2010 /05 /232010 /04 /13 - 2010 /04 /30多峰多峰舟曲泥石流自然灾害类单峰单峰西南干旱自然灾害类宽峰宽峰王家岭矿难事故灾难类单峰单峰大连漏油事故灾难类单峰单峰伊春空难事故灾难类单峰单峰鹤岗矿难事故灾难类单峰单峰湘乡踩踏事故灾难类单峰单峰伊川矿难事故灾难类宽峰宽峰10111213141516171819202122232425262728伊春烟花爆炸事故事故灾难类单峰波动南京化工厂爆炸事故事故灾难类宽峰宽峰兰州石化公司爆炸事故事故灾难类单峰单峰孪川汤营大桥垮塌事故事故灾难类单峰单峰甘肃正宁校车事故事故灾难类单峰单峰九里山矿瓦斯事故事故灾难类单峰单峰江苏丰县校车事故事故灾难类单峰单峰霸王洗发水风波公共卫生类单峰宽峰圣元奶粉早熟门公共卫生类多峰多峰地沟油事件公共卫生类单峰宽峰蝉虫中毒事件公共卫生类单峰宽峰甲流公共卫生类波动波动南京毒龙虾事件公共卫生类单峰多峰金浩茶油致癌物超标公共卫生类多峰多峰郴州血铅中毒事件公共卫生类波动波动上海钓鱼事件社会安全类单峰波动菲律宾人质事件社会安全类宽峰宽峰南平校园凶杀社会安全类单峰波动千人跪倒市长社会安全类单峰波动—192—万方数据情报学报第 32 卷第 3 期2013 年 3 月 我们首先使用隐马尔可夫模型对新闻报道和微博信息的爆发性进行建模,然后对两种渠道之间爆发模式的差别以及可能造成这种差别的原因进行了分析。3. 2 渠道爆发性模式比较分析我们采用 Bicego ...